WEKO3
アイテム
『日本語日常会話コーパス』での形態素解析:誤解析箇所の分析
https://doi.org/10.15084/00003497
https://doi.org/10.15084/0000349791cf6a32-6fd2-4de8-bde1-83fa95228185
| 名前 / ファイル | ライセンス | アクション |
|---|---|---|
|
|
|
| Item type | 会議発表論文 / Conference Paper(1) | |||||
|---|---|---|---|---|---|---|
| 公開日 | 2022-01-07 | |||||
| タイトル | ||||||
| タイトル | 『日本語日常会話コーパス』での形態素解析:誤解析箇所の分析 | |||||
| タイトル | ||||||
| タイトル | Morphological Analysis of the Corpus of Everyday Japanese Conversation : An error analysis | |||||
| 言語 | en | |||||
| 言語 | ||||||
| 言語 | jpn | |||||
| キーワード | ||||||
| 主題Scheme | Other | |||||
| 主題 | UniDic | |||||
| キーワード | ||||||
| 主題Scheme | Other | |||||
| 主題 | 日本語日常会話コーパス(CEJC) | |||||
| キーワード | ||||||
| 言語 | en | |||||
| 主題Scheme | Other | |||||
| 主題 | UniDic | |||||
| キーワード | ||||||
| 言語 | en | |||||
| 主題Scheme | Other | |||||
| 主題 | Corpus of Everyday Japanese Conversation (CEJC) | |||||
| 資源タイプ | ||||||
| 資源タイプ識別子 | http://purl.org/coar/resource_type/c_5794 | |||||
| 資源タイプ | conference paper | |||||
| ID登録 | ||||||
| ID登録 | 10.15084/00003497 | |||||
| ID登録タイプ | JaLC | |||||
| 著者 |
渡邊, 友香
× 渡邊, 友香× 西川, 賢哉× WATANABE, Yuka |
|||||
| 著者所属 | ||||||
| 内容記述タイプ | Other | |||||
| 内容記述 | 国立国語研究所 | |||||
| 著者所属 | ||||||
| 内容記述タイプ | Other | |||||
| 内容記述 | 国立国語研究所 | |||||
| 著者所属(英) | ||||||
| 内容記述タイプ | Other | |||||
| 内容記述 | National Institute for Japanese Language and Linguistics | |||||
| 著者所属(英) | ||||||
| 内容記述タイプ | Other | |||||
| 内容記述 | National Institute for Japanese Language and Linguistics | |||||
| 会議概要(会議名, 開催地, 会期, 主催者等) | ||||||
| 内容記述タイプ | Other | |||||
| 内容記述 | 会議名: 言語資源活用ワークショップ2021, 開催地: オンライン, 会期: 2021年9月13日-14日, 主催: 国立国語研究所 コーパス開発センター | |||||
| 抄録 | ||||||
| 内容記述タイプ | Abstract | |||||
| 内容記述 | 『日本語日常会話コーパス』(CEJC)の短単位情報付与作業では、次の4段階の作業工程、(i)転記をMeCab(解析器)+UniDic(解析辞書)で自動解析、(ii)音声を聴取しながら、付加情報の一つである「発音形」のみを人手修正、(iii)人手修正された発音形を尊重しつつ再び自動解析、(iv)短単位情報(境界情報、発音形以外の付加情報)を人手修正、を踏んでいる。今後の(iv)人手修正作業の参考とするため、人手修正済みデータを対象に、複数の版の現代話し言葉UniDic(Ver2.2.0, 2.3.0, 3.0.1, 3.1.0)を用いて(i)-(iii)を自動で実施し、その出力と人手修正結果とを比較した。その結果、UniDicの版が新しくなるにつれて誤解析の頻度が低下し、向上が見られたものの、誤りやすい個所がなお残っていることがわかった。特に、品詞が 「記号」「代名詞」「接続詞」「名詞-助動詞語幹」「名詞-固有名詞-人名-一般」「名詞-固有名詞-一般」となるべき語は、UniDicの版が新しくなっても別の品詞として解析される、短単位境界を誤るなど、誤解析が起こりやすい。 | |||||
| 書誌情報 |
言語資源活用ワークショップ発表論文集 en : Proceedings of Language Resources Workshop 巻 6, p. 226-239, 発行日 2021 |
|||||
| 関連サイト | ||||||
| 識別子タイプ | URI | |||||
| 関連識別子 | https://ccd.ninjal.ac.jp/lrw2021.html | |||||
| 関連名称 | 言語資源活用ワークショップ2021 | |||||
| フォーマット | ||||||
| 内容記述タイプ | Other | |||||
| 内容記述 | application/pdf | |||||
| 著者版フラグ | ||||||
| 出版タイプ | VoR | |||||
| 出版タイプResource | http://purl.org/coar/version/c_970fb48d4fbd8a85 | |||||
| 出版者 | ||||||
| 出版者 | 国立国語研究所 | |||||