WEKO3
アイテム
単語埋め込みに基づくサプライザル
https://repository.ninjal.ac.jp/records/2552
https://repository.ninjal.ac.jp/records/25522710efa0-8c1e-4efb-b5a8-e83da080f67d
名前 / ファイル | ライセンス | アクション |
---|---|---|
jnlp_26_635.pdf (713.4 kB)
|
Item type | 学術雑誌論文 / Journal Article(1) | |||||
---|---|---|---|---|---|---|
公開日 | 2019-12-21 | |||||
タイトル | ||||||
タイトル | 単語埋め込みに基づくサプライザル | |||||
タイトル | ||||||
タイトル | Surprisal through Word Embeddings | |||||
言語 | en | |||||
言語 | ||||||
言語 | jpn | |||||
キーワード | ||||||
主題Scheme | Other | |||||
主題 | リーダビリティ評価 | |||||
キーワード | ||||||
主題Scheme | Other | |||||
主題 | 読み時間 | |||||
キーワード | ||||||
主題Scheme | Other | |||||
主題 | 単語埋め込み | |||||
キーワード | ||||||
主題Scheme | Other | |||||
主題 | サプライザル | |||||
キーワード | ||||||
言語 | en | |||||
主題Scheme | Other | |||||
主題 | Readability | |||||
キーワード | ||||||
言語 | en | |||||
主題Scheme | Other | |||||
主題 | Reading Time | |||||
キーワード | ||||||
言語 | en | |||||
主題Scheme | Other | |||||
主題 | Word Embeddings | |||||
キーワード | ||||||
言語 | en | |||||
主題Scheme | Other | |||||
主題 | Surprisal | |||||
資源タイプ | ||||||
資源タイプ識別子 | http://purl.org/coar/resource_type/c_6501 | |||||
資源タイプ | journal article | |||||
著者 |
浅原, 正幸
× 浅原, 正幸× Asahara, Masayuki |
|||||
著者所属 | ||||||
内容記述タイプ | Other | |||||
内容記述 | 国立国語研究所 | |||||
著者所属(英) | ||||||
内容記述タイプ | Other | |||||
内容記述 | National Institute for Japanese Language and Linguistics | |||||
抄録 | ||||||
内容記述タイプ | Abstract | |||||
内容記述 | ヒトの文処理のモデル化としてHaleによりサプライザルが提案されている。サプライザルは文処理の負荷に対する情報量基準に基づいた指標で,当該単語の文脈中の負の対数確率が文処理の困難さをモデル化するとしている。日本語において眼球運動測定を用いて文処理の負荷をモデル化する際に,統語における基本単位である文節単位の読み時間を集計する。一方,単語の文脈中の生起確率は形態素や単語といった単位で評価し,この齟齬が直接的なサプライザルのモデル化を難しくしていた。本論文では,この問題を解決するために単語埋め込みを用いる。skip-gramの単語埋め込みの加法構成性に基づき,文節構成語のベクトルから文節のベクトルを構成し,隣接文節間のベクトルのコサイン類似度を用いて,文脈中の隣接尤度をモデル化できることを確認した。さらに,skip-gramの単語埋め込みに基づいて構成した文節のベクトルのノルムが,日本語の読み時間のモデル化に寄与することを発見した。 | |||||
抄録(英) | ||||||
内容記述タイプ | Other | |||||
内容記述 | The concept of surprisal was proposed by Hale as a psycholinguistic model of sentence processing costs based on the information theory. Surprisal measures a word's negative log probability in context and can be used to model the difficulty in processing a sentence. If this difficulty is estimated using the eye-tracking method, the reading time can be estimated using base phrase units in Japanese. In addition, word probability is estimated from the frequency of morphemes or word units in Japanese.We introduced word embeddings to address the discrepancy in units, which makes it difficult to model surprisal in Japanese. The additive property of skip-gram word embeddings enabled us to compose a base phrase vector from word vectors in the base phrase. We confirmed that the cosine similarity between two adjacent base phrase vectors can be used to model the contextual probability of the bi-gram of the base phrase and found that the norm of the base phrase correlates with reading time in Japanese. | |||||
出版者 | ||||||
出版者 | 言語処理学会 | |||||
書誌情報 |
自然言語処理 en : Journal of Natural Language Processing 巻 26, 号 3, p. 635-652, 発行日 2019-09-15 |
|||||
ISSN | ||||||
収録物識別子タイプ | ISSN | |||||
収録物識別子 | 1340-7619 | |||||
ISSN | ||||||
収録物識別子タイプ | ISSN | |||||
収録物識別子 | 2185-8314 | |||||
DOI | ||||||
関連タイプ | isIdenticalTo | |||||
識別子タイプ | DOI | |||||
関連識別子 | 10.5715/jnlp.26.635 | |||||
フォーマット | ||||||
内容記述タイプ | Other | |||||
内容記述 | application/pdf | |||||
著者版フラグ | ||||||
出版タイプ | VoR | |||||
出版タイプResource | http://purl.org/coar/version/c_970fb48d4fbd8a85 |