WEKO3
アイテム
『現代日本語書き言葉均衡コーパス』への情報構造アノテーションとその分析
https://doi.org/10.15084/00001606
https://doi.org/10.15084/00001606e45eedc8-4bdc-48b8-ab7c-44c4409ef630
名前 / ファイル | ライセンス | アクション |
---|---|---|
papers1602.pdf (763.0 kB)
|
|
Item type | 紀要論文 / Departmental Bulletin Paper(1) | |||||
---|---|---|---|---|---|---|
公開日 | 2018-10-24 | |||||
タイトル | ||||||
タイトル | 『現代日本語書き言葉均衡コーパス』への情報構造アノテーションとその分析 | |||||
タイトル | ||||||
タイトル | Construction and Analysis of Information-Structure Annotation of the "Balanced Corpus of Contemporary Written Japanese" | |||||
言語 | en | |||||
言語 | ||||||
言語 | jpn | |||||
キーワード | ||||||
主題Scheme | Other | |||||
主題 | 情報構造 | |||||
キーワード | ||||||
主題Scheme | Other | |||||
主題 | アノテーション | |||||
キーワード | ||||||
主題Scheme | Other | |||||
主題 | 名詞句 | |||||
キーワード | ||||||
主題Scheme | Other | |||||
主題 | 冠詞選択 | |||||
キーワード | ||||||
主題Scheme | Other | |||||
主題 | 助詞 | |||||
キーワード | ||||||
言語 | en | |||||
主題Scheme | Other | |||||
主題 | information structure | |||||
キーワード | ||||||
言語 | en | |||||
主題Scheme | Other | |||||
主題 | annotation | |||||
キーワード | ||||||
言語 | en | |||||
主題Scheme | Other | |||||
主題 | noun phrase | |||||
キーワード | ||||||
言語 | en | |||||
主題Scheme | Other | |||||
主題 | article selection | |||||
キーワード | ||||||
言語 | en | |||||
主題Scheme | Other | |||||
主題 | particle | |||||
資源タイプ | ||||||
資源タイプ識別子 | http://purl.org/coar/resource_type/c_6501 | |||||
資源タイプ | departmental bulletin paper | |||||
ID登録 | ||||||
ID登録 | 10.15084/00001606 | |||||
ID登録タイプ | JaLC | |||||
著者 |
宮内, 拓也
× 宮内, 拓也× 浅原, 正幸× 中川, 奈津子× 加藤, 祥× MIYAUCHI, Takuya× ASAHARA, Masayuki× NAKAGAWA, Natsuko× KATO, Sachi |
|||||
著者所属 | ||||||
内容記述タイプ | Other | |||||
内容記述 | 東京外国語大学大学院 博士後期課程 | |||||
著者所属 | ||||||
内容記述タイプ | Other | |||||
内容記述 | 国立国語研究所 コーパス開発センター | |||||
著者所属 | ||||||
内容記述タイプ | Other | |||||
内容記述 | 千葉大学人文科学研究院 特任研究員 | |||||
著者所属 | ||||||
内容記述タイプ | Other | |||||
内容記述 | 国立国語研究所 コーパス開発センター 非常勤研究員 | |||||
著者所属(英) | ||||||
内容記述タイプ | Other | |||||
内容記述 | Ph.D. Student, Tokyo University of Foreign Studies | |||||
著者所属(英) | ||||||
内容記述タイプ | Other | |||||
内容記述 | Center for Corpus Development, NINJAL | |||||
著者所属(英) | ||||||
内容記述タイプ | Other | |||||
内容記述 | Research Fellow, Graduate School of Humanities, Chiba University | |||||
著者所属(英) | ||||||
内容記述タイプ | Other | |||||
内容記述 | Adjunct Researcher, Center for Corpus Development, NINJAL | |||||
抄録 | ||||||
内容記述タイプ | Abstract | |||||
内容記述 | 本稿では,『現代日本語書き言葉均衡コーパス』のテキスト(新聞(PN)コアデータ16サンプル)内の名詞句に対し,情報構造に関係する文法情報のラベル(情報状態,共有性,定性,特定性,有生性,有情性,動作主性)をアノテーションした結果を報告する。特に,本稿ではアノテーションの概要と基礎統計について述べる。ラベル間の対応をKappa値で評価した結果,先行研究で既にアノテーションされていた共参照情報を基にした情報状態と定性・特定性の間には中程度の一致(0.41以上)が見られたのに対し,今回新たに付与した共有性と定性・特定性の間にはほとんど完璧な一致(0.81以上)が見られた。冠詞選択に大きな影響を与える定性・特定性のアノテーションは,定性・特定性が話し手側により踏み込んだ概念であることから複雑で難度が高いため,他の文法情報で定性・特定性を推定する方がより容易であると考えられる。評価の結果は,定性・特定性の推定には,共参照情報を基にした情報状態だけでは十分でなく,聞き手/読み手の観点を考慮した共有性が重要であることを意味している。また,日本語では助詞「は」と「が」の使い分けについて,情報構造との関連が指摘されているが,付属語主辞とのラベルの関係を見ると,「が」「を」「に」は新情報が多く,「は」は若干旧情報が多いこと,「は」「の」に定性・特定のものが多く,「を」に不定・不特定のものが多いことがわかった。 | |||||
抄録(英) | ||||||
内容記述タイプ | Other | |||||
内容記述 | This paper presents the information structure's annotation data (information status, commonness, definiteness, specificity, animacy, sentience, and agentivity) of the "Balanced Corpus of Contemporary Written Japanese." The annotation schema and statistics are displayed. Evaluation utilizing Kappa value indicates a moderate agreement (0.41≤) between the information status that is based on the already annotated co-reference information and definiteness/specificity. In addition, there is an almost perfect agreement (0.81≤) between commonness, which is recently annotated in this research, and definiteness/specificity. Thus, we conclude that commonness is more significant than information status to estimate definiteness and specificity, significantly affecting article selection in languages with articles. We investigate the relation between some particles and labels explained in this research since some researchers report that information structure is related to the distinction between the particles wa and ga in Japanese. Hence, the particles ga, o, and ni are usually employed with discourse-new noun phrases and wa with discourse-old ones. The particle wa is generally employed with definite and specific noun phrases, while o is employed with indefinite and unspecific ones. | |||||
出版者 | ||||||
出版者 | 国立国語研究所 | |||||
書誌情報 |
国立国語研究所論集 en : NINJAL Research Papers 号 16, p. 19-33, 発行日 2018-10 |
|||||
ISSN | ||||||
収録物識別子タイプ | ISSN | |||||
収録物識別子 | 2186-134X | |||||
ISSN | ||||||
収録物識別子タイプ | ISSN | |||||
収録物識別子 | 2186-1358 | |||||
書誌レコードID | ||||||
収録物識別子タイプ | NCID | |||||
収録物識別子 | AA12536262 | |||||
フォーマット | ||||||
内容記述タイプ | Other | |||||
内容記述 | application/pdf | |||||
著者版フラグ | ||||||
出版タイプ | VoR | |||||
出版タイプResource | http://purl.org/coar/version/c_970fb48d4fbd8a85 |