@inproceedings{oai:repository.ninjal.ac.jp:00003514, author = {渡邊, 友香 and 西川, 賢哉 and NISHIKAWA, Ken'ya and WATANABE, Yuka}, book = {言語資源活用ワークショップ発表論文集, Proceedings of Language Resources Workshop}, month = {}, note = {会議名: 言語資源活用ワークショップ2021, 開催地: オンライン, 会期: 2021年9月13日-14日, 主催: 国立国語研究所 コーパス開発センター, 『日本語日常会話コーパス』(CEJC)の短単位情報付与作業では、次の4段階の作業工程、(i)転記をMeCab(解析器)+UniDic(解析辞書)で自動解析、(ii)音声を聴取しながら、付加情報の一つである「発音形」のみを人手修正、(iii)人手修正された発音形を尊重しつつ再び自動解析、(iv)短単位情報(境界情報、発音形以外の付加情報)を人手修正、を踏んでいる。今後の(iv)人手修正作業の参考とするため、人手修正済みデータを対象に、複数の版の現代話し言葉UniDic(Ver2.2.0, 2.3.0, 3.0.1, 3.1.0)を用いて(i)-(iii)を自動で実施し、その出力と人手修正結果とを比較した。その結果、UniDicの版が新しくなるにつれて誤解析の頻度が低下し、向上が見られたものの、誤りやすい個所がなお残っていることがわかった。特に、品詞が 「記号」「代名詞」「接続詞」「名詞-助動詞語幹」「名詞-固有名詞-人名-一般」「名詞-固有名詞-一般」となるべき語は、UniDicの版が新しくなっても別の品詞として解析される、短単位境界を誤るなど、誤解析が起こりやすい。, application/pdf, 国立国語研究所, 国立国語研究所, National Institute for Japanese Language and Linguistics, National Institute for Japanese Language and Linguistics}, pages = {226--239}, publisher = {国立国語研究所}, title = {『日本語日常会話コーパス』での形態素解析:誤解析箇所の分析}, volume = {6}, year = {2021}, yomi = {ワタナベ, ユカ and ニシカワ, ケンヤ} }