WEKO3
アイテム
『現代日本語書き言葉均衡コーパス』の文境界修正
https://doi.org/10.15084/00000462
https://doi.org/10.15084/00000462c81fe546-50f0-4527-bab0-a25607716ebe
名前 / ファイル | ライセンス | アクション |
---|---|---|
papers0904.pdf (1.6 MB)
|
|
Item type | 紀要論文 / Departmental Bulletin Paper(1) | |||||
---|---|---|---|---|---|---|
公開日 | 2015-10-30 | |||||
タイトル | ||||||
タイトル | 『現代日本語書き言葉均衡コーパス』の文境界修正 | |||||
タイトル | ||||||
タイトル | Correction of Sentence Boundaries in the Balanced Corpus of Contemporary Written Japanese DVD Version 1.0 | |||||
言語 | en | |||||
言語 | ||||||
言語 | jpn | |||||
キーワード | ||||||
主題Scheme | Other | |||||
主題 | 現代日本語書き言葉均衡コーパス | |||||
キーワード | ||||||
主題Scheme | Other | |||||
主題 | 文境界 | |||||
キーワード | ||||||
主題Scheme | Other | |||||
主題 | アノテーション | |||||
キーワード | ||||||
主題Scheme | Other | |||||
主題 | 修正基準 | |||||
キーワード | ||||||
主題Scheme | Other | |||||
主題 | 修正環境 | |||||
キーワード | ||||||
言語 | en | |||||
主題Scheme | Other | |||||
主題 | BCCWJ | |||||
キーワード | ||||||
言語 | en | |||||
主題Scheme | Other | |||||
主題 | sentence boundary | |||||
キーワード | ||||||
言語 | en | |||||
主題Scheme | Other | |||||
主題 | annotation | |||||
キーワード | ||||||
言語 | en | |||||
主題Scheme | Other | |||||
主題 | error correction standard | |||||
キーワード | ||||||
言語 | en | |||||
主題Scheme | Other | |||||
主題 | error correction environment | |||||
資源タイプ | ||||||
資源タイプ識別子 | http://purl.org/coar/resource_type/c_6501 | |||||
資源タイプ | departmental bulletin paper | |||||
ID登録 | ||||||
ID登録 | 10.15084/00000462 | |||||
ID登録タイプ | JaLC | |||||
著者 |
小西, 光
× 小西, 光× 中村, 壮範× 田中, 弥生× 間淵, 洋子× 浅原, 正幸× 立花, 幸子× 加藤, 祥× 今田, 水穂× 山口, 昌也× 前川, 喜久雄× 小木曽, 智信× 山崎, 誠× 丸山, 岳彦× KONISHI, Hikari× NAKAMURA, Takenori× TANAKA, Yayoi× MABUCHI, Yoko× ASAHARA, Masayuki× TACHIBANA, Sachiko× KATO, Sachi× IMADA, Mizuho× YAMAGUCHI, Masaya× MAEKAWA, Kikuo× OGISO, Toshinobu× YAMAZAKI, Makoto× MARUYAMA, Takehiko |
|||||
著者所属 | ||||||
内容記述タイプ | Other | |||||
内容記述 | 国立国語研究所 コーパス開発センター 非常勤研究員 | |||||
著者所属 | ||||||
内容記述タイプ | Other | |||||
内容記述 | マンパワーグループ株式会社 | |||||
著者所属 | ||||||
内容記述タイプ | Other | |||||
内容記述 | 国立国語研究所 理論・構造研究系 非常勤研究員 | |||||
著者所属 | ||||||
内容記述タイプ | Other | |||||
内容記述 | 国立国語研究所 コーパス開発センター 非常勤研究員 | |||||
著者所属 | ||||||
内容記述タイプ | Other | |||||
内容記述 | 国立国語研究所 言語資源研究系 | |||||
著者所属 | ||||||
内容記述タイプ | Other | |||||
内容記述 | 国立国語研究所 コーパス開発センター 技術補佐員(元) | |||||
著者所属 | ||||||
内容記述タイプ | Other | |||||
内容記述 | 国立国語研究所 コーパス開発センター プロジェクト研究員 | |||||
著者所属 | ||||||
内容記述タイプ | Other | |||||
内容記述 | 文部科学省 | |||||
著者所属 | ||||||
内容記述タイプ | Other | |||||
内容記述 | 国立国語研究所 言語資源研究系 | |||||
著者所属 | ||||||
内容記述タイプ | Other | |||||
内容記述 | 国立国語研究所 言語資源研究系 | |||||
著者所属 | ||||||
内容記述タイプ | Other | |||||
内容記述 | 国立国語研究所 言語資源研究系 | |||||
著者所属 | ||||||
内容記述タイプ | Other | |||||
内容記述 | 国立国語研究所 言語資源研究系 | |||||
著者所属 | ||||||
内容記述タイプ | Other | |||||
内容記述 | 国立国語研究所 言語資源研究系 | |||||
著者所属(英) | ||||||
内容記述タイプ | Other | |||||
内容記述 | Adjunct Researcher, Center for Corpus Development, NINJAL | |||||
著者所属(英) | ||||||
内容記述タイプ | Other | |||||
内容記述 | Manpower Group Co., Ltd | |||||
著者所属(英) | ||||||
内容記述タイプ | Other | |||||
内容記述 | Adjunct Researcher, Department of Linguistic Theory and Structure, NINJAL | |||||
著者所属(英) | ||||||
内容記述タイプ | Other | |||||
内容記述 | Adjunct Researcher, Center for Corpus Development, NINJAL | |||||
著者所属(英) | ||||||
内容記述タイプ | Other | |||||
内容記述 | Department of Corpus Studies, NINJAL | |||||
著者所属(英) | ||||||
内容記述タイプ | Other | |||||
内容記述 | (former) Technical Staff, Center for Corpus Development, NINJAL | |||||
著者所属(英) | ||||||
内容記述タイプ | Other | |||||
内容記述 | Postdoctoral Research Fellow, Center for Corpus Development, NINJAL | |||||
著者所属(英) | ||||||
内容記述タイプ | Other | |||||
内容記述 | Ministry of Education, Culture, Sports, Science, and Technology | |||||
著者所属(英) | ||||||
内容記述タイプ | Other | |||||
内容記述 | Department of Corpus Studies, NINJAL | |||||
著者所属(英) | ||||||
内容記述タイプ | Other | |||||
内容記述 | Department of Corpus Studies, NINJAL | |||||
著者所属(英) | ||||||
内容記述タイプ | Other | |||||
内容記述 | Department of Corpus Studies, NINJAL | |||||
著者所属(英) | ||||||
内容記述タイプ | Other | |||||
内容記述 | Department of Corpus Studies, NINJAL | |||||
著者所属(英) | ||||||
内容記述タイプ | Other | |||||
内容記述 | Department of Corpus Studies, NINJAL | |||||
抄録 | ||||||
内容記述タイプ | Abstract | |||||
内容記述 | 『現代日本語書き言葉均衡コーパス』第1.0版(Maekawa et al. 2014)(以下BCCWJ)には「文境界」の情報がアノテーションされているが,その認定基準の妥当性について従来から様々な指摘がある(小西ほか2014,長谷川2014,田野村2014)。この問題に対処するために,国立国語研究所コーパス開発センターでは2013年から2014年にかけて,BCCWJの修正を行った。本稿ではその修正作業について報告する。第1.0版におけるBCCWJ 文境界情報の問題は,コーパス構築の過程において文境界を含む文書構造タグの整備と形態素列レベルの情報の整備とを並行して行ったために,文字情報を用いる文境界処理にとどまったことに由来する。今回,形態論情報に基づいた文境界基準を策定し,問題の解消を試みた。文境界修正の指針を示すとともに,文境界修正に用いた作業環境と,修正件数について報告する。 | |||||
抄録(英) | ||||||
内容記述タイプ | Other | |||||
内容記述 | In December 2011, the National Institute for Japanese Language and Linguistics (NINJAL) released a 100-million-word balanced corpus - the Balanced Corpus of Contemporary Written Japanese (BCCWJ) DVD Version 1.0 - which was compiled from 2006 through 2011. Some users have pointed out some issues concerning sentence delimitation in the BCCWJ. To address these issues, we - NINJAL - performed a complete survey and correction, beginning in 2013 and ending in 2014. This article reports the revision work on sentence delimitation in the BCCWJ. The problems with the BCCWJ DVD Version 1.0 derive from the string-based definition. We could not obtain any morpheme information for the sentence delimitation task because of the task parallelism between sentence delimitation annotation and morpheme annotation. The method used this time was morpheme based. We present the morpheme-based annotation guidelines, annotation environment, and basic statistics of the corpus correction. | |||||
出版者 | ||||||
出版者 | 国立国語研究所 | |||||
書誌情報 |
国立国語研究所論集 en : NINJAL Research Papers 号 9, p. 81-100, 発行日 2015-07 |
|||||
ISSN | ||||||
収録物識別子タイプ | ISSN | |||||
収録物識別子 | 2186-134X | |||||
ISSN | ||||||
収録物識別子タイプ | ISSN | |||||
収録物識別子 | 2186-1358 | |||||
書誌レコードID | ||||||
収録物識別子タイプ | NCID | |||||
収録物識別子 | AA12536262 | |||||
フォーマット | ||||||
内容記述タイプ | Other | |||||
内容記述 | application/pdf | |||||
著者版フラグ | ||||||
出版タイプ | VoR | |||||
出版タイプResource | http://purl.org/coar/version/c_970fb48d4fbd8a85 |