ログイン
言語:

WEKO3

  • トップ
  • ランキング
To
lat lon distance
To

Field does not validate



インデックスリンク

インデックスツリー

メールアドレスを入力してください。

WEKO

One fine body…

WEKO

One fine body…

アイテム

{"_buckets": {"deposit": "7953f929-31d1-4105-97f5-9c943c45cd05"}, "_deposit": {"created_by": 3, "id": "2591", "owners": [3], "pid": {"revision_id": 0, "type": "depid", "value": "2591"}, "status": "published"}, "_oai": {"id": "oai:repository.ninjal.ac.jp:00002591", "sets": ["372"]}, "author_link": ["4607", "9000", "8999"], "item_10003_biblio_info_32": {"attribute_name": "書誌情報", "attribute_value_mlt": [{"bibliographicIssueDates": {"bibliographicIssueDate": "2019", "bibliographicIssueDateType": "Issued"}, "bibliographicPageEnd": "250", "bibliographicPageStart": "238", "bibliographicVolumeNumber": "4", "bibliographic_titles": [{"bibliographic_title": "言語資源活用ワークショップ発表論文集"}, {"bibliographic_title": "Proceedings of Language Resources Workshop", "bibliographic_titleLang": "en"}]}]}, "item_10003_description_27": {"attribute_name": "会議概要(会議名, 開催地, 会期, 主催者等)", "attribute_value_mlt": [{"subitem_description": "会議名: 言語資源活用ワークショップ2019, 開催地: 国立国語研究所, 会期: 2019年9月2日−4日, 主催: 国立国語研究所 コーパス開発センター", "subitem_description_type": "Other"}]}, "item_10003_description_29": {"attribute_name": "抄録", "attribute_value_mlt": [{"subitem_description": "国語研で構築中の『日本語日常会話コーパス』(CEJC)の短単位解析作業について報告する。CEJCにおける短単位情報は、アノテーションの一つであるにとどまらず、(i)発音に関する情報を唯一持つ、(ii)他のアノテーション(長単位・韻律)の初期値作成の際の入力となる、(iii)転記誤りを発見する際の有力な手掛かりとなる、などの点で重要なアノテーションであり、高い精度が求められる。作業は次のように進める。まず、MeCab+UniDicで自動解析したのち、短単位付加情報の一つである「発音形」を、音を聴取しながら人手で修正する。これにより、発音形の精度向上を図る。さらに、修正された発音形を尊重しつつ再び形態素解析を行なうことにより、発音形以外の短単位情報(境界・付加情報)の精度向上をも図る(例:初出店「ショシュツ/テン」→「ハツ/シュッテン」)。その後、短単位解析結果を、形態論情報管理ツール「大納言」で検索・修正できるようにし、引き続き解析誤りを修正していく。修正が進んだ段階で、境界・付加情報に揺れがないかを系統的にチェックする(例:「ミリ/メートル」「ミリ=メートル」)。", "subitem_description_type": "Abstract"}]}, "item_10003_description_43": {"attribute_name": "フォーマット", "attribute_value_mlt": [{"subitem_description": "application/pdf", "subitem_description_type": "Other"}]}, "item_10003_description_51": {"attribute_name": "著者所属", "attribute_value_mlt": [{"subitem_description": "国立国語研究所", "subitem_description_type": "Other"}, {"subitem_description": "国立国語研究所", "subitem_description_type": "Other"}]}, "item_10003_description_52": {"attribute_name": "著者所属(英)", "attribute_value_mlt": [{"subitem_description": "National Institute for Japanese Language and Linguistics", "subitem_description_type": "Other"}, {"subitem_description": "National Institute for Japanese Language and Linguistics", "subitem_description_type": "Other"}]}, "item_10003_identifier_registration": {"attribute_name": "ID登録", "attribute_value_mlt": [{"subitem_identifier_reg_text": "10.15084/00002575", "subitem_identifier_reg_type": "JaLC"}]}, "item_10003_publisher_45": {"attribute_name": "出版者", "attribute_value_mlt": [{"subitem_publisher": "国立国語研究所"}]}, "item_10003_relation_40": {"attribute_name": "関連サイト", "attribute_value_mlt": [{"subitem_relation_name": [{"subitem_relation_name_text": "言語資源活用ワークショップ2019"}], "subitem_relation_type_id": {"subitem_relation_type_id_text": "https://pj.ninjal.ac.jp/corpus_center/lrw2019.html", "subitem_relation_type_select": "URI"}}]}, "item_10003_version_type_44": {"attribute_name": "著者版フラグ", "attribute_value_mlt": [{"subitem_version_resource": "http://purl.org/coar/version/c_970fb48d4fbd8a85", "subitem_version_type": "VoR"}]}, "item_creator": {"attribute_name": "著者", "attribute_type": "creator", "attribute_value_mlt": [{"creatorNames": [{"creatorName": "西川, 賢哉"}, {"creatorName": "ニシカワ, ケンヤ", "creatorNameLang": "ja-Kana"}, {"creatorName": "Nishikawa, Ken\u0027ya", "creatorNameLang": "en"}], "nameIdentifiers": [{"nameIdentifier": "4607", "nameIdentifierScheme": "WEKO"}, {"nameIdentifier": "50780516", "nameIdentifierScheme": "e-Rad", "nameIdentifierURI": "https://nrid.nii.ac.jp/ja/nrid/1000050780516"}, {"nameIdentifier": "kennskw", "nameIdentifierScheme": "researchmap", "nameIdentifierURI": "https://researchmap.jp/kennskw"}]}, {"creatorNames": [{"creatorName": "渡邊, 友香"}, {"creatorName": "ワタナベ, ユカ", "creatorNameLang": "ja-Kana"}], "nameIdentifiers": [{"nameIdentifier": "8999", "nameIdentifierScheme": "WEKO"}]}, {"creatorNames": [{"creatorName": "Watanabe, Yuka", "creatorNameLang": "en"}], "nameIdentifiers": [{"nameIdentifier": "9000", "nameIdentifierScheme": "WEKO"}]}]}, "item_files": {"attribute_name": "ファイル情報", "attribute_type": "file", "attribute_value_mlt": [{"accessrole": "open_date", "date": [{"dateType": "Available", "dateValue": "2020-02-13"}], "displaytype": "detail", "download_preview_message": "", "file_order": 0, "filename": "LRW2019_27_P-3-2-E.pdf", "filesize": [{"value": "932.5 kB"}], "format": "application/pdf", "future_date_message": "", "is_thumbnail": false, "licensetype": "license_free", "mimetype": "application/pdf", "size": 932500.0, "url": {"label": "LRW2019_27_P-3-2-E.pdf", "url": "https://repository.ninjal.ac.jp/record/2591/files/LRW2019_27_P-3-2-E.pdf"}, "version_id": "658fa3f7-26e2-42bf-a1c0-42c46389e4df"}]}, "item_keyword": {"attribute_name": "キーワード", "attribute_value_mlt": [{"subitem_subject": "UniDic", "subitem_subject_scheme": "Other"}, {"subitem_subject": "日本語日常会話コーパス(CEJC)", "subitem_subject_scheme": "Other"}, {"subitem_subject": "UniDic", "subitem_subject_language": "en", "subitem_subject_scheme": "Other"}, {"subitem_subject": "Corpus of Everyday Japanese Conversation (CEJC)", "subitem_subject_language": "en", "subitem_subject_scheme": "Other"}]}, "item_language": {"attribute_name": "言語", "attribute_value_mlt": [{"subitem_language": "jpn"}]}, "item_resource_type": {"attribute_name": "資源タイプ", "attribute_value_mlt": [{"resourcetype": "conference paper", "resourceuri": "http://purl.org/coar/resource_type/c_5794"}]}, "item_title": "『日本語日常会話コーパス』の短単位解析:作業工程を中心に", "item_titles": {"attribute_name": "タイトル", "attribute_value_mlt": [{"subitem_title": "『日本語日常会話コーパス』の短単位解析:作業工程を中心に"}, {"subitem_title": "Morphological Analysis of the Corpus of Everyday Japanese Conversation", "subitem_title_language": "en"}]}, "item_type_id": "10003", "owner": "3", "path": ["372"], "permalink_uri": "https://doi.org/10.15084/00002575", "pubdate": {"attribute_name": "公開日", "attribute_value": "2020-02-06"}, "publish_date": "2020-02-06", "publish_status": "0", "recid": "2591", "relation": {}, "relation_version_is_last": true, "title": ["『日本語日常会話コーパス』の短単位解析:作業工程を中心に"], "weko_shared_id": -1}
  1. 言語資源ワークショップ(旧:言語資源活用ワークショップ)
  2. 言語資源活用ワークショップ2019発表論文集

『日本語日常会話コーパス』の短単位解析:作業工程を中心に

https://doi.org/10.15084/00002575
https://doi.org/10.15084/00002575
355bf531-3b10-4c94-9cb2-e9693df1dd56
名前 / ファイル ライセンス アクション
LRW2019_27_P-3-2-E.pdf LRW2019_27_P-3-2-E.pdf (932.5 kB)
Item type 会議発表論文 / Conference Paper(1)
公開日 2020-02-06
タイトル
タイトル 『日本語日常会話コーパス』の短単位解析:作業工程を中心に
タイトル
言語 en
タイトル Morphological Analysis of the Corpus of Everyday Japanese Conversation
言語
言語 jpn
キーワード
主題Scheme Other
主題 UniDic
キーワード
主題Scheme Other
主題 日本語日常会話コーパス(CEJC)
キーワード
言語 en
主題Scheme Other
主題 UniDic
キーワード
言語 en
主題Scheme Other
主題 Corpus of Everyday Japanese Conversation (CEJC)
資源タイプ
資源タイプ識別子 http://purl.org/coar/resource_type/c_5794
資源タイプ conference paper
ID登録
ID登録 10.15084/00002575
ID登録タイプ JaLC
著者 西川, 賢哉

× 西川, 賢哉

WEKO 4607
e-Rad 50780516
researchmap kennskw

西川, 賢哉

ja-Kana ニシカワ, ケンヤ

en Nishikawa, Ken'ya

Search repository
渡邊, 友香

× 渡邊, 友香

WEKO 8999

渡邊, 友香

ja-Kana ワタナベ, ユカ

Search repository
Watanabe, Yuka

× Watanabe, Yuka

WEKO 9000

en Watanabe, Yuka

Search repository
著者所属
内容記述タイプ Other
内容記述 国立国語研究所
著者所属
内容記述タイプ Other
内容記述 国立国語研究所
著者所属(英)
内容記述タイプ Other
内容記述 National Institute for Japanese Language and Linguistics
著者所属(英)
内容記述タイプ Other
内容記述 National Institute for Japanese Language and Linguistics
会議概要(会議名, 開催地, 会期, 主催者等)
内容記述タイプ Other
内容記述 会議名: 言語資源活用ワークショップ2019, 開催地: 国立国語研究所, 会期: 2019年9月2日−4日, 主催: 国立国語研究所 コーパス開発センター
抄録
内容記述タイプ Abstract
内容記述 国語研で構築中の『日本語日常会話コーパス』(CEJC)の短単位解析作業について報告する。CEJCにおける短単位情報は、アノテーションの一つであるにとどまらず、(i)発音に関する情報を唯一持つ、(ii)他のアノテーション(長単位・韻律)の初期値作成の際の入力となる、(iii)転記誤りを発見する際の有力な手掛かりとなる、などの点で重要なアノテーションであり、高い精度が求められる。作業は次のように進める。まず、MeCab+UniDicで自動解析したのち、短単位付加情報の一つである「発音形」を、音を聴取しながら人手で修正する。これにより、発音形の精度向上を図る。さらに、修正された発音形を尊重しつつ再び形態素解析を行なうことにより、発音形以外の短単位情報(境界・付加情報)の精度向上をも図る(例:初出店「ショシュツ/テン」→「ハツ/シュッテン」)。その後、短単位解析結果を、形態論情報管理ツール「大納言」で検索・修正できるようにし、引き続き解析誤りを修正していく。修正が進んだ段階で、境界・付加情報に揺れがないかを系統的にチェックする(例:「ミリ/メートル」「ミリ=メートル」)。
書誌情報 言語資源活用ワークショップ発表論文集
en : Proceedings of Language Resources Workshop

巻 4, p. 238-250, 発行日 2019
関連サイト
識別子タイプ URI
関連識別子 https://pj.ninjal.ac.jp/corpus_center/lrw2019.html
関連名称 言語資源活用ワークショップ2019
フォーマット
内容記述タイプ Other
内容記述 application/pdf
著者版フラグ
出版タイプ VoR
出版タイプResource http://purl.org/coar/version/c_970fb48d4fbd8a85
出版者
出版者 国立国語研究所
戻る
0
views
See details
Views

Versions

Ver.1 2023-05-15 15:02:50.155758
Show All versions

Share

Mendeley Twitter Facebook Print Addthis

Cite as

エクスポート

OAI-PMH
  • OAI-PMH JPCOAR
  • OAI-PMH DublinCore
  • OAI-PMH DDI
Other Formats
  • JSON
  • BIBTEX

Confirm


Powered by WEKO3


Powered by WEKO3