WEKO3
アイテム
学習者コーパスにおける形態論情報整備に向けた取り組み
https://doi.org/10.15084/0002000606
https://doi.org/10.15084/00020006068fa343af-6e98-4288-9894-6762b369cbb8
| 名前 / ファイル | ライセンス | アクション |
|---|---|---|
|
|
| Item type | 紀要論文 / Departmental Bulletin Paper(1) | |||||||||||||||||||||
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 公開日 | 2026-01-23 | |||||||||||||||||||||
| タイトル | ||||||||||||||||||||||
| タイトル | 学習者コーパスにおける形態論情報整備に向けた取り組み | |||||||||||||||||||||
| 言語 | ja | |||||||||||||||||||||
| タイトル | ||||||||||||||||||||||
| タイトル | Refinement of Morphological Information in Japanese Learner Corpus | |||||||||||||||||||||
| 言語 | en | |||||||||||||||||||||
| 言語 | ||||||||||||||||||||||
| 言語 | jpn | |||||||||||||||||||||
| キーワード | ||||||||||||||||||||||
| 言語 | ja | |||||||||||||||||||||
| 主題Scheme | Other | |||||||||||||||||||||
| 主題 | W-CoLeJa | |||||||||||||||||||||
| キーワード | ||||||||||||||||||||||
| 言語 | ja | |||||||||||||||||||||
| 主題Scheme | Other | |||||||||||||||||||||
| 主題 | 日本語学習者 | |||||||||||||||||||||
| キーワード | ||||||||||||||||||||||
| 言語 | ja | |||||||||||||||||||||
| 主題Scheme | Other | |||||||||||||||||||||
| 主題 | 形態素解析 | |||||||||||||||||||||
| キーワード | ||||||||||||||||||||||
| 言語 | ja | |||||||||||||||||||||
| 主題Scheme | Other | |||||||||||||||||||||
| 主題 | 誤り分析 | |||||||||||||||||||||
| キーワード | ||||||||||||||||||||||
| 言語 | ja | |||||||||||||||||||||
| 主題Scheme | Other | |||||||||||||||||||||
| 主題 | 自動アノテーション | |||||||||||||||||||||
| キーワード | ||||||||||||||||||||||
| 言語 | en | |||||||||||||||||||||
| 主題Scheme | Other | |||||||||||||||||||||
| 主題 | W-CoLeJa | |||||||||||||||||||||
| キーワード | ||||||||||||||||||||||
| 言語 | en | |||||||||||||||||||||
| 主題Scheme | Other | |||||||||||||||||||||
| 主題 | Japanese language learners | |||||||||||||||||||||
| キーワード | ||||||||||||||||||||||
| 言語 | en | |||||||||||||||||||||
| 主題Scheme | Other | |||||||||||||||||||||
| 主題 | morphological analysis | |||||||||||||||||||||
| キーワード | ||||||||||||||||||||||
| 言語 | en | |||||||||||||||||||||
| 主題Scheme | Other | |||||||||||||||||||||
| 主題 | error analysis | |||||||||||||||||||||
| キーワード | ||||||||||||||||||||||
| 言語 | en | |||||||||||||||||||||
| 主題Scheme | Other | |||||||||||||||||||||
| 主題 | automatic annotation | |||||||||||||||||||||
| 資源タイプ | ||||||||||||||||||||||
| 資源タイプ識別子 | http://purl.org/coar/resource_type/c_6501 | |||||||||||||||||||||
| 資源タイプ | departmental bulletin paper | |||||||||||||||||||||
| ID登録 | ||||||||||||||||||||||
| ID登録 | 10.15084/0002000606 | |||||||||||||||||||||
| ID登録タイプ | JaLC | |||||||||||||||||||||
| 著者 |
朱, 雅蘭
× 朱, 雅蘭
× 李, 琦
× 工藤, 隆弘
× 横野, 光
|
|||||||||||||||||||||
| 抄録 | ||||||||||||||||||||||
| 内容記述タイプ | Abstract | |||||||||||||||||||||
| 内容記述 | 学習者コーパスの構築においては,単語や品詞などの語彙情報を精緻に捉えることが不可欠である。このため,単語を形態素に分割し,品詞などの情報を付与する形態素解析が広く用いられている。しかし,学習者データを解析する際には,既存の形態素解析器では想定されていない誤用や,母語由来の語彙挿入が多く含まれ,それに起因する誤解析が頻繁に発生する。本稿では,『日本語学習者縦断作文コーパス(W-CoLeJa)』を事例に,学習者コーパスの形態論情報の整備に向けた取り組みについて報告する。整備にあたり誤解析の傾向を分析した結果,「辞書未登録語の使用」「ひらがな表記の連続」「本文の誤り」の3種類に大別されることが明らかとなった。これらの要因に対応するために,人手による誤解析箇所の確認および修正と,機械による自動修正を組み合わせた手法を採用し,ユーザ辞書構築および誤解析パターンに基づく自動修正という2つのアプローチを試みた。こうした形態論情報の整備プロセスを通して,誤解析の修正作業における実践的な方針を提示するとともに,今後の大規模な日本語学習者コーパスの構築や,小規模な学習者コーパスへの応用可能性についても示唆を与える。 | |||||||||||||||||||||
| 言語 | ja | |||||||||||||||||||||
| 抄録(英) | ||||||||||||||||||||||
| 内容記述タイプ | Abstract | |||||||||||||||||||||
| 内容記述 | When constructing a learner corpus, it is essential to accurately capture vocabulary information such as words and parts of speech. Morphological analysis, which divides words into morphemes and assigns information such as parts of speech, is widely used for this purpose. However, when analyzing Japanese learner data, existing morphological analyzers often produce frequent misinterpretations due to the large number of misuses and native-language vocabulary insertions that they were not designed to handle. In this paper, we report efforts to improve morphological information in a learner corpus using the Japanese Learner Longitudinal Writing Corpus (W-CoLeJa). Analysis of misinterpretation trends during the improvement process revealed three major categories: "unregistered words in the dictionary," "consecutive hiragana notation," and "errors in the text." To address these issues, we adopted a combined approach of manual verification and automatic correction, using two methods: user dictionary construction and automatic correction based on misinterpretation patterns. Through this process, we present practical guidelines for misinterpretation correction and propose possibilities for future large-scale Japanese learner corpus construction, as well as applications to small-scale learner corpora. |
|||||||||||||||||||||
| 言語 | en | |||||||||||||||||||||
| 出版者 | ||||||||||||||||||||||
| 出版者 | 国立国語研究所 | |||||||||||||||||||||
| 言語 | ja | |||||||||||||||||||||
| bibliographic_information |
ja : 国立国語研究所論集 en : NINJAL Research Papers 巻 30, p. 231-260, 発行日 2026-01 |
|||||||||||||||||||||
| ISSN | ||||||||||||||||||||||
| 収録物識別子タイプ | EISSN | |||||||||||||||||||||
| 収録物識別子 | 2186-1358 | |||||||||||||||||||||
| フォーマット | ||||||||||||||||||||||
| 内容記述タイプ | Other | |||||||||||||||||||||
| 内容記述 | application/pdf | |||||||||||||||||||||
| 言語 | ja | |||||||||||||||||||||
| 出版タイプ | ||||||||||||||||||||||
| 出版タイプ | VoR | |||||||||||||||||||||
| 出版タイプResource | http://purl.org/coar/version/c_970fb48d4fbd8a85 | |||||||||||||||||||||