WEKO3
アイテム
『日本語日常会話コーパス』に対する短単位情報付与:作業工程と評価
https://doi.org/10.15084/00003172
https://doi.org/10.15084/00003172ba4a3077-ae9a-40a5-a0ca-0f6502df0d38
名前 / ファイル | ライセンス | アクション |
---|---|---|
LRW2020_33_P-4-6.pdf (641.2 kB)
|
|
Item type | 会議発表論文 / Conference Paper(1) | |||||
---|---|---|---|---|---|---|
公開日 | 2021-03-05 | |||||
タイトル | ||||||
タイトル | 『日本語日常会話コーパス』に対する短単位情報付与:作業工程と評価 | |||||
タイトル | ||||||
タイトル | Short Unit Word Annotation for the Corpus of Everyday Japanese Conversation : Procedures and Evaluation | |||||
言語 | en | |||||
言語 | ||||||
言語 | jpn | |||||
キーワード | ||||||
主題Scheme | Other | |||||
主題 | 日本語日常会話コーパス(CEJC) | |||||
キーワード | ||||||
言語 | en | |||||
主題Scheme | Other | |||||
主題 | Corpus of Everyday Japanese Conversation (CEJC) | |||||
資源タイプ | ||||||
資源タイプ識別子 | http://purl.org/coar/resource_type/c_5794 | |||||
資源タイプ | conference paper | |||||
ID登録 | ||||||
ID登録 | 10.15084/00003172 | |||||
ID登録タイプ | JaLC | |||||
著者 |
西川, 賢哉
× 西川, 賢哉× 渡邊, 友香× Watanabe, Yuka |
|||||
著者所属 | ||||||
内容記述タイプ | Other | |||||
内容記述 | 国立国語研究所 | |||||
著者所属 | ||||||
内容記述タイプ | Other | |||||
内容記述 | 国立国語研究所 | |||||
著者所属(英) | ||||||
内容記述タイプ | Other | |||||
内容記述 | National Institute for Japanese Language and Linguistics | |||||
著者所属(英) | ||||||
内容記述タイプ | Other | |||||
内容記述 | National Institute for Japanese Language and Linguistics | |||||
会議概要(会議名, 開催地, 会期, 主催者等) | ||||||
内容記述タイプ | Other | |||||
内容記述 | 会議名: 言語資源活用ワークショップ2020, 開催地: オンライン, 会期: 2020年9月8日−9日, 主催: 国立国語研究所 コーパス開発センター | |||||
抄録 | ||||||
内容記述タイプ | Abstract | |||||
内容記述 | 『日本語日常会話コーパス』(CEJC)の短単位情報付与作業では、以下のような作業工程を踏んでいる:(i) 転記をMeCab(解析器)+ UniDic(解析辞書)で自動解析、(ii) 音声を聴取しながら、付加情報の一つである「発音形」のみを人手修正、(iii) 人手修正された発音形を尊重しつつ再び自動解析、(iv) 短単位情報(境界情報、発音形以外の付加情報)を人手修正。この作業工程の妥当性を検証するため、人手修正済みデータを対象に、複数の版の現代話し言葉UniDic(Ver2.2.0, 2.3.0, 3.0.1)で自動解析をしなおし、出力を比較した。その結果、どの版のUniDicを使っても、人手修正された発音形の情報を用いる方が、そうでない場合に比べ、短単位情報の精度向上を見込めることがわかった。特に、古い版のUniDic (Ver2.2.0)ではそれが顕著であった(境界+品詞+語彙素(F値):0.944→0.962)。一方で、最新版のUniDic (Ver3.0.1)では効果は限定的である(同:0.976→0.979)。 | |||||
書誌情報 |
言語資源活用ワークショップ発表論文集 en : Proceedings of Language Resources Workshop 巻 5, p. 324-330, 発行日 2020 |
|||||
関連サイト | ||||||
識別子タイプ | URI | |||||
関連識別子 | https://pj.ninjal.ac.jp/corpus_center/lrw2020.html | |||||
関連名称 | 言語資源活用ワークショップ2020 | |||||
フォーマット | ||||||
内容記述タイプ | Other | |||||
内容記述 | application/pdf | |||||
著者版フラグ | ||||||
出版タイプ | VoR | |||||
出版タイプResource | http://purl.org/coar/version/c_970fb48d4fbd8a85 | |||||
出版者 | ||||||
出版者 | 国立国語研究所 |