ログイン
言語:

WEKO3

  • トップ
  • ランキング
To
lat lon distance
To

Field does not validate



インデックスリンク

インデックスツリー

メールアドレスを入力してください。

WEKO

One fine body…

WEKO

One fine body…

アイテム

  1. 国立国語研究所論集
  2. 第30号

学習者コーパスにおける形態論情報整備に向けた取り組み

https://doi.org/10.15084/0002000606
https://doi.org/10.15084/0002000606
8fa343af-6e98-4288-9894-6762b369cbb8
名前 / ファイル ライセンス アクション
papers3014.pdf papers3014.pdf (1.5 MB)
license.icon
Item type 紀要論文 / Departmental Bulletin Paper(1)
公開日 2026-01-23
タイトル
タイトル 学習者コーパスにおける形態論情報整備に向けた取り組み
言語 ja
タイトル
タイトル Refinement of Morphological Information in Japanese Learner Corpus
言語 en
言語
言語 jpn
キーワード
言語 ja
主題Scheme Other
主題 W-CoLeJa
キーワード
言語 ja
主題Scheme Other
主題 日本語学習者
キーワード
言語 ja
主題Scheme Other
主題 形態素解析
キーワード
言語 ja
主題Scheme Other
主題 誤り分析
キーワード
言語 ja
主題Scheme Other
主題 自動アノテーション
キーワード
言語 en
主題Scheme Other
主題 W-CoLeJa
キーワード
言語 en
主題Scheme Other
主題 Japanese language learners
キーワード
言語 en
主題Scheme Other
主題 morphological analysis
キーワード
言語 en
主題Scheme Other
主題 error analysis
キーワード
言語 en
主題Scheme Other
主題 automatic annotation
資源タイプ
資源タイプ識別子 http://purl.org/coar/resource_type/c_6501
資源タイプ departmental bulletin paper
ID登録
ID登録 10.15084/0002000606
ID登録タイプ JaLC
著者 朱, 雅蘭

× 朱, 雅蘭

ja 朱, 雅蘭
一橋大学大学院 博士後期課程

en ZHU, Yalan
Ph.D. Student, Hitotsubashi University

Search repository
李, 琦

× 李, 琦

ja 李, 琦
一橋大学大学院 博士後期課程

en LI, Qi
Ph.D. Student, Hitotsubashi University

Search repository
工藤, 隆弘

× 工藤, 隆弘

ja 工藤, 隆弘
明星大学大学院 博士前期課程

en KUDO, Takahiro
M.A. Student, Meisei University

Search repository
横野, 光

× 横野, 光

ja 横野, 光
明星大学

en YOKONO, Hikaru
Meisei University

Search repository
抄録
内容記述タイプ Abstract
内容記述 学習者コーパスの構築においては,単語や品詞などの語彙情報を精緻に捉えることが不可欠である。このため,単語を形態素に分割し,品詞などの情報を付与する形態素解析が広く用いられている。しかし,学習者データを解析する際には,既存の形態素解析器では想定されていない誤用や,母語由来の語彙挿入が多く含まれ,それに起因する誤解析が頻繁に発生する。本稿では,『日本語学習者縦断作文コーパス(W-CoLeJa)』を事例に,学習者コーパスの形態論情報の整備に向けた取り組みについて報告する。整備にあたり誤解析の傾向を分析した結果,「辞書未登録語の使用」「ひらがな表記の連続」「本文の誤り」の3種類に大別されることが明らかとなった。これらの要因に対応するために,人手による誤解析箇所の確認および修正と,機械による自動修正を組み合わせた手法を採用し,ユーザ辞書構築および誤解析パターンに基づく自動修正という2つのアプローチを試みた。こうした形態論情報の整備プロセスを通して,誤解析の修正作業における実践的な方針を提示するとともに,今後の大規模な日本語学習者コーパスの構築や,小規模な学習者コーパスへの応用可能性についても示唆を与える。
言語 ja
抄録(英)
内容記述タイプ Abstract
内容記述 When constructing a learner corpus, it is essential to accurately capture vocabulary information such as words and parts of speech. Morphological analysis, which divides words into morphemes and assigns information such as parts of speech, is widely used for this purpose. However, when analyzing Japanese learner data, existing morphological analyzers often produce frequent misinterpretations due to the large number of misuses and native-language vocabulary insertions that they were not designed to handle.
In this paper, we report efforts to improve morphological information in a learner corpus using the Japanese Learner Longitudinal Writing Corpus (W-CoLeJa). Analysis of misinterpretation trends during the improvement process revealed three major categories: "unregistered words in the dictionary," "consecutive hiragana notation," and "errors in the text."
To address these issues, we adopted a combined approach of manual verification and automatic correction, using two methods: user dictionary construction and automatic correction based on misinterpretation patterns. Through this process, we present practical guidelines for misinterpretation correction and propose possibilities for future large-scale Japanese learner corpus construction, as well as applications to small-scale learner corpora.
言語 en
出版者
出版者 国立国語研究所
言語 ja
bibliographic_information ja : 国立国語研究所論集
en : NINJAL Research Papers

巻 30, p. 231-260, 発行日 2026-01
ISSN
収録物識別子タイプ EISSN
収録物識別子 2186-1358
フォーマット
内容記述タイプ Other
内容記述 application/pdf
言語 ja
出版タイプ
出版タイプ VoR
出版タイプResource http://purl.org/coar/version/c_970fb48d4fbd8a85
戻る
0
views
See details
Views

Versions

Ver.1 2026-01-21 02:07:16.525044
Show All versions

Share

Mendeley Twitter Facebook Print Addthis

Cite as

エクスポート

OAI-PMH
  • OAI-PMH JPCOAR 2.0
  • OAI-PMH JPCOAR 1.0
  • OAI-PMH DublinCore
  • OAI-PMH DDI
Other Formats
  • JSON
  • BIBTEX

Confirm


Powered by WEKO3


Powered by WEKO3