WEKO3
アイテム
日本語日常会話コーパスのUniversal Dependencies: UD_Japanese-CEJC
https://repository.ninjal.ac.jp/records/2000497
https://repository.ninjal.ac.jp/records/2000497d9a6b46a-f296-4988-81c6-762208ac5244
名前 / ファイル | ライセンス | アクション |
---|---|---|
![]() |
Item type | 学術雑誌論文 / Journal Article(1) | |||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
公開日 | 2025-03-31 | |||||||||||||
タイトル | ||||||||||||||
タイトル | 日本語日常会話コーパスのUniversal Dependencies: UD_Japanese-CEJC | |||||||||||||
言語 | ja | |||||||||||||
タイトル | ||||||||||||||
タイトル | Universal Dependencies for Corpus of Everyday Japanese Conversation: UD_Japanese-CEJC | |||||||||||||
言語 | en | |||||||||||||
言語 | ||||||||||||||
言語 | jpn | |||||||||||||
キーワード | ||||||||||||||
言語 | ja | |||||||||||||
主題Scheme | Other | |||||||||||||
主題 | Universal Dependencies | |||||||||||||
キーワード | ||||||||||||||
言語 | ja | |||||||||||||
主題Scheme | Other | |||||||||||||
主題 | 話し言葉 | |||||||||||||
キーワード | ||||||||||||||
言語 | ja | |||||||||||||
主題Scheme | Other | |||||||||||||
主題 | ツリーバンク | |||||||||||||
キーワード | ||||||||||||||
言語 | ja | |||||||||||||
主題Scheme | Other | |||||||||||||
主題 | 日本語 | |||||||||||||
キーワード | ||||||||||||||
言語 | ja | |||||||||||||
主題Scheme | Other | |||||||||||||
主題 | 日本語日常会話コーパス | |||||||||||||
キーワード | ||||||||||||||
言語 | ja | |||||||||||||
主題Scheme | Other | |||||||||||||
主題 | 係り受け構造 | |||||||||||||
キーワード | ||||||||||||||
言語 | en | |||||||||||||
主題Scheme | Other | |||||||||||||
主題 | Universal Dependencies | |||||||||||||
キーワード | ||||||||||||||
言語 | en | |||||||||||||
主題Scheme | Other | |||||||||||||
主題 | Spoken language | |||||||||||||
キーワード | ||||||||||||||
言語 | en | |||||||||||||
主題Scheme | Other | |||||||||||||
主題 | Treebank | |||||||||||||
キーワード | ||||||||||||||
言語 | en | |||||||||||||
主題Scheme | Other | |||||||||||||
主題 | Japanese | |||||||||||||
キーワード | ||||||||||||||
言語 | en | |||||||||||||
主題Scheme | Other | |||||||||||||
主題 | Corpus of Everyday Japanese Conversation | |||||||||||||
キーワード | ||||||||||||||
言語 | en | |||||||||||||
主題Scheme | Other | |||||||||||||
主題 | Dependency Structure | |||||||||||||
資源タイプ | ||||||||||||||
資源タイプ識別子 | http://purl.org/coar/resource_type/c_6501 | |||||||||||||
資源タイプ | journal article | |||||||||||||
著者 |
大村, 舞
× 大村, 舞× 若狭, 絢
× 松田, 寛
× 浅原, 正幸 |
|||||||||||||
著者所属 | ||||||||||||||
内容記述タイプ | Other | |||||||||||||
内容記述 | 国立国語研究所 | |||||||||||||
言語 | ja | |||||||||||||
著者所属 | ||||||||||||||
内容記述タイプ | Other | |||||||||||||
内容記述 | 東北大学 | |||||||||||||
言語 | ja | |||||||||||||
著者所属 | ||||||||||||||
内容記述タイプ | Other | |||||||||||||
内容記述 | 株式会社リクルート Megagon Labs | |||||||||||||
言語 | ja | |||||||||||||
著者所属 | ||||||||||||||
内容記述タイプ | Other | |||||||||||||
内容記述 | 国立国語研究所 | |||||||||||||
言語 | ja | |||||||||||||
著者所属(英) | ||||||||||||||
内容記述タイプ | Other | |||||||||||||
内容記述 | National Institute for Japanese Language and Linguistics | |||||||||||||
言語 | en | |||||||||||||
著者所属(英) | ||||||||||||||
内容記述タイプ | Other | |||||||||||||
内容記述 | Tohoku University | |||||||||||||
言語 | en | |||||||||||||
著者所属(英) | ||||||||||||||
内容記述タイプ | Other | |||||||||||||
内容記述 | Megagon Labs, Tokyo, Recruit Co., LTD. | |||||||||||||
言語 | en | |||||||||||||
著者所属(英) | ||||||||||||||
内容記述タイプ | Other | |||||||||||||
内容記述 | National Institute for Japanese Language and Linguistics | |||||||||||||
言語 | en | |||||||||||||
抄録 | ||||||||||||||
内容記述タイプ | Abstract | |||||||||||||
内容記述 | 本研究では,日本語日常会話コーパス (CEJC) を Universal Dependencies 形式に変換した日本語話し言葉のツリーバンク UD_Japanese-CEJC を開発・構築したので,そのデータについて報告する.日本語日常会話コーパスは,日本語の様々な日常会話を収録した大規模な音声言語コーパスであり,単語区切りや品詞のアノテーションが含まれている.我々は,UD_Japanese-CEJC のために,CEJC の長単位形態論情報と文節係り受け情報を新たにアノテーションした.UD_Japanese-CEJC は日本語形態論情報と文節ベースの依存構造情報および CEJC から手作業で整備された変換ルールに従って構築した.構築した UD_Japanese-CEJC に対して,日本語書き言葉コーパスとの比較や UD 依存構造解析精度の評価をおこない,CEJC におけるUD構築に関する様々な問題点を検討した. | |||||||||||||
言語 | ja | |||||||||||||
抄録(英) | ||||||||||||||
内容記述タイプ | Other | |||||||||||||
内容記述 | In this study, we report the development and construction of the universal dependencies-based Japanese spoken language treebank (UD_Japanese-CEJC), a conversion of the corpus of everyday Japanese conversation (CEJC) into the universal dependencies format. The CEJC is a large-scale spoken language corpus that includes various everyday Japanese conversations, annotated with word boundaries and morphological information. For the UD Japanese-CEJC, we annotated the CEJC with long-unit morphological and phrase dependency information. It was constructed according to manually refined conversion rules from the CEJC, using morphological information and Bunsetsu phrase-based syntactic dependencies. We examined various issues related to UD constructions in the CEJC by comparing it with a written Japanese corpus and evaluating UD parsing accuracy. | |||||||||||||
言語 | en | |||||||||||||
出版者 | ||||||||||||||
出版者 | 言語処理学会 | |||||||||||||
言語 | ja | |||||||||||||
bibliographic_information |
ja : 自然言語処理 en : Journal of Natural Language Processing 巻 32, 号 1, p. 55-90, 発行日 2025 |
|||||||||||||
ISSN | ||||||||||||||
収録物識別子タイプ | PISSN | |||||||||||||
収録物識別子 | 1340-7619 | |||||||||||||
ISSN | ||||||||||||||
収録物識別子タイプ | EISSN | |||||||||||||
収録物識別子 | 2185-8314 | |||||||||||||
item_10001_relation_14 | ||||||||||||||
関連タイプ | isIdenticalTo | |||||||||||||
識別子タイプ | DOI | |||||||||||||
関連識別子 | 10.5715/jnlp.32.55 | |||||||||||||
フォーマット | ||||||||||||||
内容記述タイプ | Other | |||||||||||||
内容記述 | application/pdf | |||||||||||||
言語 | ja | |||||||||||||
出版タイプ | ||||||||||||||
出版タイプ | VoR | |||||||||||||
出版タイプResource | http://purl.org/coar/version/c_970fb48d4fbd8a85 |