WEKO3
アイテム
『日本語日常会話コーパス』設計と構築
https://doi.org/10.15084/00003692
https://doi.org/10.15084/0000369227d94f79-e577-46d1-8eb7-224bdd56a68e
名前 / ファイル | ライセンス | アクション |
---|---|---|
papers2407.pdf (1.9 MB)
|
|
Item type | 紀要論文 / Departmental Bulletin Paper(1) | |||||
---|---|---|---|---|---|---|
公開日 | 2023-01-27 | |||||
タイトル | ||||||
タイトル | 『日本語日常会話コーパス』設計と構築 | |||||
タイトル | ||||||
タイトル | Design and Construction of the Corpus of Everyday Japanese Conversation | |||||
言語 | en | |||||
言語 | ||||||
言語 | jpn | |||||
キーワード | ||||||
主題Scheme | Other | |||||
主題 | 音声コーパス | |||||
キーワード | ||||||
主題Scheme | Other | |||||
主題 | 日常会話 | |||||
キーワード | ||||||
主題Scheme | Other | |||||
主題 | コーパス設計 | |||||
キーワード | ||||||
主題Scheme | Other | |||||
主題 | アノテーション | |||||
キーワード | ||||||
言語 | en | |||||
主題Scheme | Other | |||||
主題 | spoken corpus | |||||
キーワード | ||||||
言語 | en | |||||
主題Scheme | Other | |||||
主題 | everyday conversation | |||||
キーワード | ||||||
言語 | en | |||||
主題Scheme | Other | |||||
主題 | corpus design | |||||
キーワード | ||||||
言語 | en | |||||
主題Scheme | Other | |||||
主題 | annotation | |||||
資源タイプ | ||||||
資源タイプ識別子 | http://purl.org/coar/resource_type/c_6501 | |||||
資源タイプ | departmental bulletin paper | |||||
ID登録 | ||||||
ID登録 | 10.15084/00003692 | |||||
ID登録タイプ | JaLC | |||||
著者 |
小磯, 花絵
× 小磯, 花絵× 天谷, 晴香× 居關, 友里子× 臼田, 泰如× 柏野, 和佳子× 川端, 良子× 田中, 弥生× 伝, 康晴× 西川, 賢哉× 渡邊, 友香× KOISO, Hanae× AMATANI, Haruka× ISEKI, Yuriko× USUDA, Yasuyuki× KASHINO, Wakako× KAWABATA, Yoshiko× TANAKA, Yayoi× DEN, Yasuharu× NISHIKAWA, Ken'ya× WATANABE, Yuka |
|||||
著者所属 | ||||||
内容記述タイプ | Other | |||||
内容記述 | 国立国語研究所 研究系 | |||||
著者所属 | ||||||
内容記述タイプ | Other | |||||
内容記述 | 国立国語研究所 研究系 非常勤研究員 | |||||
著者所属 | ||||||
内容記述タイプ | Other | |||||
内容記述 | 国立国語研究所 研究系 非常勤研究員 | |||||
著者所属 | ||||||
内容記述タイプ | Other | |||||
内容記述 | 国立国語研究所 研究系 非常勤研究員 | |||||
著者所属 | ||||||
内容記述タイプ | Other | |||||
内容記述 | 国立国語研究所 研究系 | |||||
著者所属 | ||||||
内容記述タイプ | Other | |||||
内容記述 | 国立国語研究所 言語資源開発センター | |||||
著者所属 | ||||||
内容記述タイプ | Other | |||||
内容記述 | 国立国語研究所 研究系 非常勤研究員 | |||||
著者所属 | ||||||
内容記述タイプ | Other | |||||
内容記述 | 千葉大学 | |||||
著者所属 | ||||||
内容記述タイプ | Other | |||||
内容記述 | 国立国語研究所 研究系 非常勤研究員 | |||||
著者所属 | ||||||
内容記述タイプ | Other | |||||
内容記述 | 国立国語研究所 研究系 技術補佐員 | |||||
著者所属(英) | ||||||
内容記述タイプ | Other | |||||
内容記述 | Research Department, NINJAL | |||||
著者所属(英) | ||||||
内容記述タイプ | Other | |||||
内容記述 | Adjunct Researcher, Research Department, NINJAL | |||||
著者所属(英) | ||||||
内容記述タイプ | Other | |||||
内容記述 | Adjunct Researcher, Research Department, NINJAL | |||||
著者所属(英) | ||||||
内容記述タイプ | Other | |||||
内容記述 | Adjunct Researcher, Research Department, NINJAL | |||||
著者所属(英) | ||||||
内容記述タイプ | Other | |||||
内容記述 | Research Department, NINJAL | |||||
著者所属(英) | ||||||
内容記述タイプ | Other | |||||
内容記述 | Center for Language Resource Development, NINJAL | |||||
著者所属(英) | ||||||
内容記述タイプ | Other | |||||
内容記述 | Adjunct Researcher, Research Department, NINJAL | |||||
著者所属(英) | ||||||
内容記述タイプ | Other | |||||
内容記述 | Chiba University | |||||
著者所属(英) | ||||||
内容記述タイプ | Other | |||||
内容記述 | Adjunct Researcher, Research Department, NINJAL | |||||
著者所属(英) | ||||||
内容記述タイプ | Other | |||||
内容記述 | Technical Assistant, Research Department, NINJAL | |||||
抄録 | ||||||
内容記述タイプ | Abstract | |||||
内容記述 | 国立国語研究所共同研究プロジェクト「大規模日常会話コーパスに基づく話し言葉の多角的研究」では,『日本語日常会話コーパス』(CEJC)の構築を進め,2022年3月に最終公開した。CEJCは,(1)日常生活で実際に交わされる会話を対象とすること,(2)多様な場面における多様な話者による会話をバランスよく格納すること,(3)映像まで含めて公開することを特徴とする。日常会話を対象とする映像付き大規模コーパスの構築は世界的に見ても新しい取り組みである。コーパスの規模は,200時間,577会話,240万語,延べ話者数1675人である。本稿では,コーパスの設計・構築について,会話の収録法や収録機器,コーパスの基本構成,公開する音声・映像データのフォーマット,転記テキスト,各種アノテーション等などの観点から概観した上で,収録データのバランスについて検証する。 | |||||
抄録(英) | ||||||
内容記述タイプ | Other | |||||
内容記述 | We have constructed the Corpus of Everyday Japanese Conversation (CEJC) and published it in March 2022. The main features of the CEJC include: i) a focus on conversations that occurred naturally in activities of daily life; ii) a balanced collection of everyday conversations that capture their diversity and facilitate the observation of natural, conversational behavior in daily life; and iii) the publication of audio and video data for a better understanding of the mechanism of real-life social behavior. The publication of a large-scale corpus of everyday conversations that includes video data is a new approach. The CEJC contains 200 hours of speech, 577 conversations, approximately 2.4 million words, and 1,675 speakers. In this paper, we describe the process involved in the design and construction of CEJC including the recording method and devices used, structure of the corpus, formats of the audio and video files, transcription, and annotations. We then examine how the conversations in the corpus were selected and compiled in a balanced manner to showcase their variety. | |||||
出版者 | ||||||
出版者 | 国立国語研究所 | |||||
書誌情報 |
国立国語研究所論集 en : NINJAL Research Papers 巻 24, p. 153-168, 発行日 2023-01 |
|||||
ISSN | ||||||
収録物識別子タイプ | ISSN | |||||
収録物識別子 | 2186-1358 | |||||
フォーマット | ||||||
内容記述タイプ | Other | |||||
内容記述 | application/pdf | |||||
著者版フラグ | ||||||
出版タイプ | VoR | |||||
出版タイプResource | http://purl.org/coar/version/c_970fb48d4fbd8a85 |