ログイン
言語:

WEKO3

  • トップ
  • ランキング
To
lat lon distance
To

Field does not validate



インデックスリンク

インデックスツリー

メールアドレスを入力してください。

WEKO

One fine body…

WEKO

One fine body…

アイテム

  1. 国立国語研究所論集
  2. 第9号

『現代日本語書き言葉均衡コーパス』の文境界修正

https://doi.org/10.15084/00000462
https://doi.org/10.15084/00000462
c81fe546-50f0-4527-bab0-a25607716ebe
名前 / ファイル ライセンス アクション
papers0904.pdf papers0904.pdf (1.6 MB)
Item type 紀要論文 / Departmental Bulletin Paper(1)
公開日 2015-10-30
タイトル
タイトル 『現代日本語書き言葉均衡コーパス』の文境界修正
タイトル
タイトル Correction of Sentence Boundaries in the Balanced Corpus of Contemporary Written Japanese DVD Version 1.0
言語 en
言語
言語 jpn
キーワード
主題Scheme Other
主題 現代日本語書き言葉均衡コーパス
キーワード
主題Scheme Other
主題 文境界
キーワード
主題Scheme Other
主題 アノテーション
キーワード
主題Scheme Other
主題 修正基準
キーワード
主題Scheme Other
主題 修正環境
キーワード
言語 en
主題Scheme Other
主題 BCCWJ
キーワード
言語 en
主題Scheme Other
主題 sentence boundary
キーワード
言語 en
主題Scheme Other
主題 annotation
キーワード
言語 en
主題Scheme Other
主題 error correction standard
キーワード
言語 en
主題Scheme Other
主題 error correction environment
資源タイプ
資源タイプ識別子 http://purl.org/coar/resource_type/c_6501
資源タイプ departmental bulletin paper
ID登録
ID登録 10.15084/00000462
ID登録タイプ JaLC
著者 小西, 光

× 小西, 光

WEKO 6215

小西, 光

ja-Kana コニシ, ヒカリ

Search repository
中村, 壮範

× 中村, 壮範

WEKO 6216

中村, 壮範

ja-Kana ナカムラ, タケノリ

Search repository
田中, 弥生

× 田中, 弥生

WEKO 6217

田中, 弥生

ja-Kana タナカ, ヤヨイ

Search repository
間淵, 洋子

× 間淵, 洋子

WEKO 6218

間淵, 洋子

ja-Kana マブチ, ヨウコ

Search repository
浅原, 正幸

× 浅原, 正幸

WEKO 6219

浅原, 正幸

ja-Kana アサハラ, マサユキ

Search repository
立花, 幸子

× 立花, 幸子

WEKO 6220

立花, 幸子

ja-Kana タチバナ, サチコ

Search repository
加藤, 祥

× 加藤, 祥

WEKO 6221

加藤, 祥

ja-Kana カトウ, サチ

Search repository
今田, 水穂

× 今田, 水穂

WEKO 6222

今田, 水穂

ja-Kana イマダ, ミズホ

Search repository
山口, 昌也

× 山口, 昌也

WEKO 6223

山口, 昌也

ja-Kana ヤマグチ, マサヤ

Search repository
前川, 喜久雄

× 前川, 喜久雄

WEKO 6224

前川, 喜久雄

ja-Kana マエカワ, キクオ

Search repository
小木曽, 智信

× 小木曽, 智信

WEKO 6225

小木曽, 智信

ja-Kana オギソ, トシノブ

Search repository
山崎, 誠

× 山崎, 誠

WEKO 6226

山崎, 誠

ja-Kana ヤマザキ, マコト

Search repository
丸山, 岳彦

× 丸山, 岳彦

WEKO 6227

丸山, 岳彦

ja-Kana マルヤマ, タケヒコ

Search repository
KONISHI, Hikari

× KONISHI, Hikari

WEKO 6228

en KONISHI, Hikari

Search repository
NAKAMURA, Takenori

× NAKAMURA, Takenori

WEKO 6229

en NAKAMURA, Takenori

Search repository
TANAKA, Yayoi

× TANAKA, Yayoi

WEKO 6230

en TANAKA, Yayoi

Search repository
MABUCHI, Yoko

× MABUCHI, Yoko

WEKO 6231

en MABUCHI, Yoko

Search repository
ASAHARA, Masayuki

× ASAHARA, Masayuki

WEKO 6232

en ASAHARA, Masayuki

Search repository
TACHIBANA, Sachiko

× TACHIBANA, Sachiko

WEKO 6233

en TACHIBANA, Sachiko

Search repository
KATO, Sachi

× KATO, Sachi

WEKO 6234

en KATO, Sachi

Search repository
IMADA, Mizuho

× IMADA, Mizuho

WEKO 6235

en IMADA, Mizuho

Search repository
YAMAGUCHI, Masaya

× YAMAGUCHI, Masaya

WEKO 6236

en YAMAGUCHI, Masaya

Search repository
MAEKAWA, Kikuo

× MAEKAWA, Kikuo

WEKO 6237

en MAEKAWA, Kikuo

Search repository
OGISO, Toshinobu

× OGISO, Toshinobu

WEKO 6238

en OGISO, Toshinobu

Search repository
YAMAZAKI, Makoto

× YAMAZAKI, Makoto

WEKO 6239

en YAMAZAKI, Makoto

Search repository
MARUYAMA, Takehiko

× MARUYAMA, Takehiko

WEKO 6240

en MARUYAMA, Takehiko

Search repository
著者所属
内容記述タイプ Other
内容記述 国立国語研究所 コーパス開発センター 非常勤研究員
著者所属
内容記述タイプ Other
内容記述 マンパワーグループ株式会社
著者所属
内容記述タイプ Other
内容記述 国立国語研究所 理論・構造研究系 非常勤研究員
著者所属
内容記述タイプ Other
内容記述 国立国語研究所 コーパス開発センター 非常勤研究員
著者所属
内容記述タイプ Other
内容記述 国立国語研究所 言語資源研究系
著者所属
内容記述タイプ Other
内容記述 国立国語研究所 コーパス開発センター 技術補佐員(元)
著者所属
内容記述タイプ Other
内容記述 国立国語研究所 コーパス開発センター プロジェクト研究員
著者所属
内容記述タイプ Other
内容記述 文部科学省
著者所属
内容記述タイプ Other
内容記述 国立国語研究所 言語資源研究系
著者所属
内容記述タイプ Other
内容記述 国立国語研究所 言語資源研究系
著者所属
内容記述タイプ Other
内容記述 国立国語研究所 言語資源研究系
著者所属
内容記述タイプ Other
内容記述 国立国語研究所 言語資源研究系
著者所属
内容記述タイプ Other
内容記述 国立国語研究所 言語資源研究系
著者所属(英)
内容記述タイプ Other
内容記述 Adjunct Researcher, Center for Corpus Development, NINJAL
著者所属(英)
内容記述タイプ Other
内容記述 Manpower Group Co., Ltd
著者所属(英)
内容記述タイプ Other
内容記述 Adjunct Researcher, Department of Linguistic Theory and Structure, NINJAL
著者所属(英)
内容記述タイプ Other
内容記述 Adjunct Researcher, Center for Corpus Development, NINJAL
著者所属(英)
内容記述タイプ Other
内容記述 Department of Corpus Studies, NINJAL
著者所属(英)
内容記述タイプ Other
内容記述 (former) Technical Staff, Center for Corpus Development, NINJAL
著者所属(英)
内容記述タイプ Other
内容記述 Postdoctoral Research Fellow, Center for Corpus Development, NINJAL
著者所属(英)
内容記述タイプ Other
内容記述 Ministry of Education, Culture, Sports, Science, and Technology
著者所属(英)
内容記述タイプ Other
内容記述 Department of Corpus Studies, NINJAL
著者所属(英)
内容記述タイプ Other
内容記述 Department of Corpus Studies, NINJAL
著者所属(英)
内容記述タイプ Other
内容記述 Department of Corpus Studies, NINJAL
著者所属(英)
内容記述タイプ Other
内容記述 Department of Corpus Studies, NINJAL
著者所属(英)
内容記述タイプ Other
内容記述 Department of Corpus Studies, NINJAL
抄録
内容記述タイプ Abstract
内容記述 『現代日本語書き言葉均衡コーパス』第1.0版(Maekawa et al. 2014)(以下BCCWJ)には「文境界」の情報がアノテーションされているが,その認定基準の妥当性について従来から様々な指摘がある(小西ほか2014,長谷川2014,田野村2014)。この問題に対処するために,国立国語研究所コーパス開発センターでは2013年から2014年にかけて,BCCWJの修正を行った。本稿ではその修正作業について報告する。第1.0版におけるBCCWJ 文境界情報の問題は,コーパス構築の過程において文境界を含む文書構造タグの整備と形態素列レベルの情報の整備とを並行して行ったために,文字情報を用いる文境界処理にとどまったことに由来する。今回,形態論情報に基づいた文境界基準を策定し,問題の解消を試みた。文境界修正の指針を示すとともに,文境界修正に用いた作業環境と,修正件数について報告する。
抄録(英)
内容記述タイプ Other
内容記述 In December 2011, the National Institute for Japanese Language and Linguistics (NINJAL) released a 100-million-word balanced corpus - the Balanced Corpus of Contemporary Written Japanese (BCCWJ) DVD Version 1.0 - which was compiled from 2006 through 2011. Some users have pointed out some issues concerning sentence delimitation in the BCCWJ. To address these issues, we - NINJAL - performed a complete survey and correction, beginning in 2013 and ending in 2014. This article reports the revision work on sentence delimitation in the BCCWJ. The problems with the BCCWJ DVD Version 1.0 derive from the string-based definition. We could not obtain any morpheme information for the sentence delimitation task because of the task parallelism between sentence delimitation annotation and morpheme annotation. The method used this time was morpheme based. We present the morpheme-based annotation guidelines, annotation environment, and basic statistics of the corpus correction.
出版者
出版者 国立国語研究所
書誌情報 国立国語研究所論集
en : NINJAL Research Papers

号 9, p. 81-100, 発行日 2015-07
ISSN
収録物識別子タイプ ISSN
収録物識別子 2186-134X
ISSN
収録物識別子タイプ ISSN
収録物識別子 2186-1358
書誌レコードID
収録物識別子タイプ NCID
収録物識別子 AA12536262
フォーマット
内容記述タイプ Other
内容記述 application/pdf
著者版フラグ
出版タイプ VoR
出版タイプResource http://purl.org/coar/version/c_970fb48d4fbd8a85
戻る
0
views
See details
Views

Versions

Ver.1 2023-05-15 15:21:07.702427
Show All versions

Share

Mendeley Twitter Facebook Print Addthis

Cite as

エクスポート

OAI-PMH
  • OAI-PMH JPCOAR 2.0
  • OAI-PMH JPCOAR 1.0
  • OAI-PMH DublinCore
  • OAI-PMH DDI
Other Formats
  • JSON
  • BIBTEX

Confirm


Powered by WEKO3


Powered by WEKO3