ログイン
言語:

WEKO3

  • トップ
  • ランキング
To
lat lon distance
To

Field does not validate



インデックスリンク

インデックスツリー

メールアドレスを入力してください。

WEKO

One fine body…

WEKO

One fine body…

アイテム

  1. 国立国語研究所論集
  2. 第23号

分散表現を利用した日本語歴史コーパスにおける語義曖昧性解消の通時適応

https://doi.org/10.15084/00003566
https://doi.org/10.15084/00003566
31048116-e1df-4e1e-9b4a-059de498c4ec
名前 / ファイル ライセンス アクション
papers2303.pdf papers2303.pdf (609.6 kB)
Item type 紀要論文 / Departmental Bulletin Paper(1)
公開日 2022-07-27
タイトル
タイトル 分散表現を利用した日本語歴史コーパスにおける語義曖昧性解消の通時適応
タイトル
タイトル Diachronic Domain Adaptation of Word Sense Disambiguation in Corpus of Historical Japanese Using Word Embeddings
言語 en
言語
言語 eng
キーワード
主題Scheme Other
主題 領域適応
キーワード
主題Scheme Other
主題 歴史コーパス
キーワード
主題Scheme Other
主題 通時適応
キーワード
主題Scheme Other
主題 語義曖昧性解消
キーワード
主題Scheme Other
主題 分散表現
キーワード
言語 en
主題Scheme Other
主題 domain adaptation
キーワード
言語 en
主題Scheme Other
主題 historical corpus
キーワード
言語 en
主題Scheme Other
主題 diachronic adaptation
キーワード
言語 en
主題Scheme Other
主題 word sense disambiguation
キーワード
言語 en
主題Scheme Other
主題 word embeddings
資源タイプ
資源タイプ識別子 http://purl.org/coar/resource_type/c_6501
資源タイプ departmental bulletin paper
ID登録
ID登録 10.15084/00003566
ID登録タイプ JaLC
著者 古宮, 嘉那子

× 古宮, 嘉那子

WEKO 11989

古宮, 嘉那子

Search repository
田邊, 絢

× 田邊, 絢

WEKO 11990

田邊, 絢

Search repository
新納, 浩幸

× 新納, 浩幸

WEKO 11991

新納, 浩幸

Search repository
KOMIYA, Kanako

× KOMIYA, Kanako

WEKO 11992

en KOMIYA, Kanako

Search repository
TANABE, Aya

× TANABE, Aya

WEKO 11993

en TANABE, Aya

Search repository
SHINNOU, Hiroyuki

× SHINNOU, Hiroyuki

WEKO 11994

en SHINNOU, Hiroyuki

Search repository
著者所属
内容記述タイプ Other
内容記述 東京農工大学
著者所属
内容記述タイプ Other
内容記述 茨城大学
著者所属
内容記述タイプ Other
内容記述 茨城大学
著者所属(英)
内容記述タイプ Other
内容記述 Tokyo University of Agriculture and Technology
著者所属(英)
内容記述タイプ Other
内容記述 Ibaraki University
著者所属(英)
内容記述タイプ Other
内容記述 Ibaraki University
抄録
内容記述タイプ Abstract
内容記述 語義タグ付きコーパスを用いた現代日本語の語義曖昧性解消の研究は数多い。しかし,入手可能なタグ付きコーパスが少ないため,日本語の古典語の語義曖昧性解消を高性能に行うことは難しい。そのため,現代日本語文を用いて通時的な領域適応を行うことは,古典語の語義曖昧性解消の性能を高めるひとつの解決方法であると考えられる。本研究では,日本語の古典語の語義曖昧性解消において,領域適応手法のひとつである,分散表現のfine-tuningの効果について調べる。現代文の分散表現であるNWJC2vecの古典語によるfine-tuningや,古典語によって作成した分散表現の現代文によるfine-tuningなど,様々なfine-tuningのシナリオを検証した。さらに,NWJC2vecを古典語でfine-tuningする際には,時代順に段階的に分散表現をfine-tuningする手法についても試した。語義曖昧性解消の対象語の前後二語ずつの単語の分散表現を素性とし,Support Vector Machineの分類器に用いて分類を行った。シナリオは(1)現代文のコーパスの全用例と古典語のコーパスの用例8割を訓練事例とし,残りの2割の古典語の用例をテストとして利用する場合,(2)古典語の用例だけを利用して五分割交差検定を行った場合,(3)現代文のコーパスの全用例を訓練事例とし,古典語全用例をテストする場合の三通りを比較した。最高の精度となったのは,(2)古典語の用例だけを利用したシナリオで,古典語によって作成した分散表現に現代文によるfine-tuningを行った場合であった。
抄録(英)
内容記述タイプ Other
内容記述 There have been many studies on word sense disambiguation (WSD) in contemporary Japanese. However, it is difficult to achieve high performance of WSD in historical Japanese because of the lack of sense-tagged corpora. Therefore, diachronic adaptation using contemporary Japanese could be a solution. We investigated the effectiveness of the fine-tuning of word embeddings for WSD in historical Japanese. A variety of fine-tuning scenarios are examined, including the case where the word embeddings of contemporary Japanese (NWJC2vec) are fine-tuned with historical Japanese and the case where the word embeddings trained with historical Japanese are fine-tuned with contemporary Japanese. Moreover, when NWJC2vec was fine-tuned with a historical corpus, the case where the word embeddings were gradually fine-tuned in the order of time was also tested. The word embeddings of two words before and after the target word are used as the features for the support vector machine, which is a classifier of WSD. The following three scenarios are compared: (1) all the examples from the contemporary Japanese corpus and 80% examples from the historical corpus are used as the training data for the test of the remaining 20% examples from the historical corpus, (2) 5-fold cross validation of the examples of the historical Japanese corpus, and (3) all the examples from the contemporary corpus are used as the training data for test examples from the historical corpus. The best accuracy was achieved when we used word embeddings trained from a historical corpus and fine-tuned with a contemporary corpus in the 5-fold cross validation scenario.
出版者
出版者 国立国語研究所
書誌情報 国立国語研究所論集
en : NINJAL Research Papers

号 23, p. 59-73, 発行日 2022-07
ISSN
収録物識別子タイプ ISSN
収録物識別子 2186-1358
フォーマット
内容記述タイプ Other
内容記述 application/pdf
著者版フラグ
出版タイプ VoR
出版タイプResource http://purl.org/coar/version/c_970fb48d4fbd8a85
戻る
0
views
See details
Views

Versions

Ver.1 2023-05-15 14:43:44.758014
Show All versions

Share

Mendeley Twitter Facebook Print Addthis

Cite as

エクスポート

OAI-PMH
  • OAI-PMH JPCOAR 2.0
  • OAI-PMH JPCOAR 1.0
  • OAI-PMH DublinCore
  • OAI-PMH DDI
Other Formats
  • JSON
  • BIBTEX

Confirm


Powered by WEKO3


Powered by WEKO3