ログイン
言語:

WEKO3

  • トップ
  • ランキング
To
lat lon distance
To

Field does not validate



インデックスリンク

インデックスツリー

メールアドレスを入力してください。

WEKO

One fine body…

WEKO

One fine body…

アイテム

  1. 国語研プロジェクトレビュー
  2. 第4巻第2号

〈共同研究プロジェクト紹介〉萌芽・発掘型 : 統計と機械学習による日本語史研究 歴史的日本語資料のアノテーションと自動濁点付与

https://doi.org/10.15084/00000743
https://doi.org/10.15084/00000743
79364a5b-3ba1-4cba-beb6-b7588c63b3d4
名前 / ファイル ライセンス アクション
review040209.pdf review040209.pdf (698.3 kB)
Item type 紀要論文 / Departmental Bulletin Paper(1)
公開日 2015-10-30
タイトル
タイトル 〈共同研究プロジェクト紹介〉萌芽・発掘型 : 統計と機械学習による日本語史研究 歴史的日本語資料のアノテーションと自動濁点付与
タイトル
タイトル Analysis of Historical Japanese Texts and Automatic dakuten Annotation
言語 en
言語
言語 jpn
資源タイプ
資源タイプ識別子 http://purl.org/coar/resource_type/c_6501
資源タイプ departmental bulletin paper
ID登録
ID登録 10.15084/00000743
ID登録タイプ JaLC
著者 小木曽, 智信

× 小木曽, 智信

WEKO 6631

小木曽, 智信

ja-Kana オギソ, トシノブ

Search repository
OGISO, Toshinobu

× OGISO, Toshinobu

WEKO 6632

en OGISO, Toshinobu

Search repository
著者所属
内容記述タイプ Other
内容記述 国立国語研究所言語資源研究系
抄録
内容記述タイプ Abstract
内容記述 通時コーパスの構築に必要とされる歴史的日本語資料のアノテーションの全体について俯瞰した上で,アノテーション作業の自動化の試みの一つとして濁点の自動付与に関する研究成果を紹介する。歴史的資料では,濁点が十分に付与されていないものが少なくないが,そのままでは読みにくく検索や形態素解析にとって不都合である。そこで統計的機械学習に基づく自動濁点付与の手法を開発し,適合率約96%,再現率約98%での濁点付与を可能にした。これにより通時コーパス構築の作業負担の軽減が期待できる。最後に,今後の歴史コーパスに期待される高度なアノテーションについて展望する。
抄録(英)
内容記述タイプ Other
内容記述 Following a survey of annotations for historical Japanese documents that are required for the construction of a diachronic corpus, I introduce the results of our research on adding dakuten (the voicing diacritic) automatically. Raw historical texts often include characters with dakuten omitted, but such texts degrade readability and retrievability and are not suitable for morphological analysis. We therefore developed an automatic annotation technique for dakuten based on statistical machine learning that has a precision rate of approximately 96% and a recall rate of approximately 98%. This technique can reduce the work involved in diachronic corpus construction. Finally, I discuss the high-level annotation that can be expected in diachronic corpora from now on.
出版者
出版者 国立国語研究所
書誌情報 国語研プロジェクトレビュー
en : NINJAL Project Review

巻 4, 号 2, p. 144-150, 発行日 2013-10
ISSN
収録物識別子タイプ ISSN
収録物識別子 2185-0100
ISSN
収録物識別子タイプ ISSN
収録物識別子 2185-0119
書誌レコードID
収録物識別子タイプ NCID
収録物識別子 AA12480598
フォーマット
内容記述タイプ Other
内容記述 application/pdf
著者版フラグ
出版タイプ VoR
出版タイプResource http://purl.org/coar/version/c_970fb48d4fbd8a85
戻る
0
views
See details
Views

Versions

Ver.1 2023-05-15 15:16:42.124284
Show All versions

Share

Mendeley Twitter Facebook Print Addthis

Cite as

エクスポート

OAI-PMH
  • OAI-PMH JPCOAR 2.0
  • OAI-PMH JPCOAR 1.0
  • OAI-PMH DublinCore
  • OAI-PMH DDI
Other Formats
  • JSON
  • BIBTEX

Confirm


Powered by WEKO3


Powered by WEKO3