@inproceedings{oai:repository.ninjal.ac.jp:00002591, author = {西川, 賢哉 and Nishikawa, Ken'ya and 渡邊, 友香 and Watanabe, Yuka}, book = {言語資源活用ワークショップ発表論文集, Proceedings of Language Resources Workshop}, month = {}, note = {会議名: 言語資源活用ワークショップ2019, 開催地: 国立国語研究所, 会期: 2019年9月2日−4日, 主催: 国立国語研究所 コーパス開発センター, 国語研で構築中の『日本語日常会話コーパス』(CEJC)の短単位解析作業について報告する。CEJCにおける短単位情報は、アノテーションの一つであるにとどまらず、(i)発音に関する情報を唯一持つ、(ii)他のアノテーション(長単位・韻律)の初期値作成の際の入力となる、(iii)転記誤りを発見する際の有力な手掛かりとなる、などの点で重要なアノテーションであり、高い精度が求められる。作業は次のように進める。まず、MeCab+UniDicで自動解析したのち、短単位付加情報の一つである「発音形」を、音を聴取しながら人手で修正する。これにより、発音形の精度向上を図る。さらに、修正された発音形を尊重しつつ再び形態素解析を行なうことにより、発音形以外の短単位情報(境界・付加情報)の精度向上をも図る(例:初出店「ショシュツ/テン」→「ハツ/シュッテン」)。その後、短単位解析結果を、形態論情報管理ツール「大納言」で検索・修正できるようにし、引き続き解析誤りを修正していく。修正が進んだ段階で、境界・付加情報に揺れがないかを系統的にチェックする(例:「ミリ/メートル」「ミリ=メートル」)。, application/pdf, 国立国語研究所, 国立国語研究所, National Institute for Japanese Language and Linguistics, National Institute for Japanese Language and Linguistics}, pages = {238--250}, publisher = {国立国語研究所}, title = {『日本語日常会話コーパス』の短単位解析:作業工程を中心に}, volume = {4}, year = {2019}, yomi = {ニシカワ, ケンヤ and ワタナベ, ユカ} }