@article{oai:repository.ninjal.ac.jp:00003583, author = {古宮, 嘉那子 and 田邊, 絢 and 新納, 浩幸 and KOMIYA, Kanako and TANABE, Aya and SHINNOU, Hiroyuki}, issue = {23}, journal = {国立国語研究所論集, NINJAL Research Papers}, month = {Jul}, note = {東京農工大学, 茨城大学, 茨城大学, Tokyo University of Agriculture and Technology, Ibaraki University, Ibaraki University, 語義タグ付きコーパスを用いた現代日本語の語義曖昧性解消の研究は数多い。しかし,入手可能なタグ付きコーパスが少ないため,日本語の古典語の語義曖昧性解消を高性能に行うことは難しい。そのため,現代日本語文を用いて通時的な領域適応を行うことは,古典語の語義曖昧性解消の性能を高めるひとつの解決方法であると考えられる。本研究では,日本語の古典語の語義曖昧性解消において,領域適応手法のひとつである,分散表現のfine-tuningの効果について調べる。現代文の分散表現であるNWJC2vecの古典語によるfine-tuningや,古典語によって作成した分散表現の現代文によるfine-tuningなど,様々なfine-tuningのシナリオを検証した。さらに,NWJC2vecを古典語でfine-tuningする際には,時代順に段階的に分散表現をfine-tuningする手法についても試した。語義曖昧性解消の対象語の前後二語ずつの単語の分散表現を素性とし,Support Vector Machineの分類器に用いて分類を行った。シナリオは(1)現代文のコーパスの全用例と古典語のコーパスの用例8割を訓練事例とし,残りの2割の古典語の用例をテストとして利用する場合,(2)古典語の用例だけを利用して五分割交差検定を行った場合,(3)現代文のコーパスの全用例を訓練事例とし,古典語全用例をテストする場合の三通りを比較した。最高の精度となったのは,(2)古典語の用例だけを利用したシナリオで,古典語によって作成した分散表現に現代文によるfine-tuningを行った場合であった。, There have been many studies on word sense disambiguation (WSD) in contemporary Japanese. However, it is difficult to achieve high performance of WSD in historical Japanese because of the lack of sense-tagged corpora. Therefore, diachronic adaptation using contemporary Japanese could be a solution. We investigated the effectiveness of the fine-tuning of word embeddings for WSD in historical Japanese. A variety of fine-tuning scenarios are examined, including the case where the word embeddings of contemporary Japanese (NWJC2vec) are fine-tuned with historical Japanese and the case where the word embeddings trained with historical Japanese are fine-tuned with contemporary Japanese. Moreover, when NWJC2vec was fine-tuned with a historical corpus, the case where the word embeddings were gradually fine-tuned in the order of time was also tested. The word embeddings of two words before and after the target word are used as the features for the support vector machine, which is a classifier of WSD. The following three scenarios are compared: (1) all the examples from the contemporary Japanese corpus and 80% examples from the historical corpus are used as the training data for the test of the remaining 20% examples from the historical corpus, (2) 5-fold cross validation of the examples of the historical Japanese corpus, and (3) all the examples from the contemporary corpus are used as the training data for test examples from the historical corpus. The best accuracy was achieved when we used word embeddings trained from a historical corpus and fine-tuned with a contemporary corpus in the 5-fold cross validation scenario., application/pdf}, pages = {59--73}, title = {分散表現を利用した日本語歴史コーパスにおける語義曖昧性解消の通時適応}, year = {2022} }