WEKO3
アイテム
近代の歴史的資料を対象とした機械学習による文境界推定
https://repository.ninjal.ac.jp/records/3072
https://repository.ninjal.ac.jp/records/3072dcade003-969d-4748-a204-7d904cb684d8
Item type | 学術雑誌論文 / Journal Article(1) | |||||
---|---|---|---|---|---|---|
公開日 | 2020-11-12 | |||||
タイトル | ||||||
タイトル | 近代の歴史的資料を対象とした機械学習による文境界推定 | |||||
タイトル | ||||||
タイトル | Machine Learning-based Sentence Boundary Detection for Modern Japanese Texts | |||||
言語 | en | |||||
言語 | ||||||
言語 | jpn | |||||
キーワード | ||||||
主題Scheme | Other | |||||
主題 | [特集:人文科学とコンピュータ] 近代文語 | |||||
キーワード | ||||||
主題Scheme | Other | |||||
主題 | 文境界推定 | |||||
キーワード | ||||||
主題Scheme | Other | |||||
主題 | 近代語コーパス | |||||
キーワード | ||||||
主題Scheme | Other | |||||
主題 | UniDic | |||||
資源タイプ | ||||||
資源タイプ識別子 | http://purl.org/coar/resource_type/c_6501 | |||||
資源タイプ | journal article | |||||
アクセス権 | ||||||
アクセス権 | metadata only access | |||||
アクセス権URI | http://purl.org/coar/access_right/c_14cb | |||||
著者 |
白井, 良介
× 白井, 良介× 松村, 雪桜× 小木曽, 智信× 小町, 守× Shirai, Ryosuke× Matsumura, Yukio× Ogiso, Toshinobu× Komachi, Mamoru |
|||||
著者所属 | ||||||
内容記述タイプ | Other | |||||
内容記述 | 首都大学東京 | |||||
著者所属 | ||||||
内容記述タイプ | Other | |||||
内容記述 | 首都大学東京 | |||||
著者所属 | ||||||
内容記述タイプ | Other | |||||
内容記述 | 国立国語研究所 | |||||
著者所属 | ||||||
内容記述タイプ | Other | |||||
内容記述 | 首都大学東京 | |||||
著者所属(英) | ||||||
内容記述タイプ | Other | |||||
内容記述 | Tokyo Metropolitan University | |||||
著者所属(英) | ||||||
内容記述タイプ | Other | |||||
内容記述 | Tokyo Metropolitan University | |||||
著者所属(英) | ||||||
内容記述タイプ | Other | |||||
内容記述 | The National Institute for Japanese Language and Linguistics | |||||
著者所属(英) | ||||||
内容記述タイプ | Other | |||||
内容記述 | Tokyo Metropolitan University | |||||
抄録 | ||||||
内容記述タイプ | Abstract | |||||
内容記述 | 本稿では,機械学習を用いて近代の歴史的資料に対して文境界を検出する手法を提案する.近代の歴史的資料は明確な文境界が必ずしも存在しないため,これまで人手作業による文境界の付与が行われてきたが,膨大な資料に対してなかなか作業が進んでいない現状がある.そこで我々は機械学習を用いて文境界を検出する手法を提案する.この手法により膨大な量の資料に対して文境界の一次的なアノテーションを施すことができることに加えて,形態素解析の精度を向上させたことが本研究の貢献である.また,モデルの訓練に日本語の近代語のデータを使用して,複数の機械学習手法を比較して近代の歴史的資料を対象とした文境界推定を行うのは本研究が初めてである. | |||||
抄録(英) | ||||||
内容記述タイプ | Other | |||||
内容記述 | In this study, we propose a method to detect sentence boundaries for modern Japanese texts using machine learning. For modern Japanese texts, sentence boundaries are not explicitly marked so that human annotation is inevitable, but the annotation process is far from complete due to enormous number of materials. Therefore, we propose a method to detect sentence boundaries using machine learning. The main contribution of this study is that this method can support the annotation task as a primary annotation. We also show that the accuracy of morphological analysis can be improved by performing sentence boundary detection. Moreover, this is the first work to detect sentence boundaries targeting modern Japanese texts by using modern Japanese data for model training and comparing multiple machine learning methods. | |||||
出版者 | ||||||
出版者 | 情報処理学会 | |||||
書誌情報 |
情報処理学会論文誌 巻 61, 号 2, p. 152-161, 発行日 2020-02-15 |
|||||
ISSN | ||||||
収録物識別子タイプ | ISSN | |||||
収録物識別子 | 1882-7764 | |||||
書誌レコードID | ||||||
識別子タイプ | NCID | |||||
関連識別子 | AN00116647 | |||||
関連サイト | ||||||
識別子タイプ | URI | |||||
関連識別子 | http://id.nii.ac.jp/1001/00203040/ | |||||
関連名称 | http://id.nii.ac.jp/1001/00203040/ |