@inproceedings{oai:repository.ninjal.ac.jp:00001709, author = {岡, 照晃 and OKA, Teruaki}, book = {言語資源活用ワークショップ発表論文集, Proceedings of Language Resources Workshop}, month = {}, note = {会議名: 言語資源活用ワークショップ2018, 開催地: 国立国語研究所, 会期: 2018年9月4日-5日, 主催: 国立国語研究所 コーパス開発センター, 『国語研日本語ウェブコーパス(NWJC)』は、国立国語研究所がこれまで公開してきた『現代日本語書き言葉均衡コーパス(BCCWJ)』や『日本語話し言葉コーパス(CSJ)』と異なり、形態論情報をすべて形態素解析器『MeCab』と『解析用UniDic』を使って自動付与している。『BCCWJ』や『CSJ』といった既存のコーパスの整備の際には、コーパスアノテーションと同時に、形態論情報のデータベースである『UniDic DB』に新規短単位語彙素を追加していた。そのためコーパス整備と同時に『UniDic DB』も拡張されてきたが、『NWJC』は全自動で構築されたため、新規短単位語彙素の検出とDBへの登録が行われておらず、その箇所で自動解析誤りのままとなっている。そこで本研究では、形態素解析を介さず、文字N-gramの出現頻度と連接頻度の情報から文字N-gramの分散表現を作成し、『NWJC』から『UniDic DB』に未登録の新規短単位語彙素の候補を列挙する方法について述べる。これによりDBのさらなる拡張が望めるだけでなく、『UniDic DB』のエクスポートデータで作成される『解析用UniDic』も拡張されるため、それを用いた再解析によって『NWJC』中の誤解析箇所を減らすことにもつながる。, application/pdf, 国立国語研究所, National Institute for Japanese Language and Linguistics}, pages = {586--592}, publisher = {国立国語研究所}, title = {『国語研日本語ウェブコーパス』からの新規語彙素獲得の試み}, volume = {3}, year = {2018}, yomi = {オカ, テルアキ} }