@article{oai:repository.ninjal.ac.jp:00003709, author = {小磯, 花絵 and 天谷, 晴香 and 居關, 友里子 and 臼田, 泰如 and 柏野, 和佳子 and 川端, 良子 and 田中, 弥生 and 伝, 康晴 and 西川, 賢哉 and 渡邊, 友香 and KOISO, Hanae and AMATANI, Haruka and ISEKI, Yuriko and USUDA, Yasuyuki and KASHINO, Wakako and KAWABATA, Yoshiko and TANAKA, Yayoi and DEN, Yasuharu and NISHIKAWA, Ken'ya and WATANABE, Yuka}, journal = {国立国語研究所論集, NINJAL Research Papers}, month = {Jan}, note = {国立国語研究所 研究系, 国立国語研究所 研究系 非常勤研究員, 国立国語研究所 研究系 非常勤研究員, 国立国語研究所 研究系 非常勤研究員, 国立国語研究所 研究系, 国立国語研究所 言語資源開発センター, 国立国語研究所 研究系 非常勤研究員, 千葉大学, 国立国語研究所 研究系 非常勤研究員, 国立国語研究所 研究系 技術補佐員, Research Department, NINJAL, Adjunct Researcher, Research Department, NINJAL, Adjunct Researcher, Research Department, NINJAL, Adjunct Researcher, Research Department, NINJAL, Research Department, NINJAL, Center for Language Resource Development, NINJAL, Adjunct Researcher, Research Department, NINJAL, Chiba University, Adjunct Researcher, Research Department, NINJAL, Technical Assistant, Research Department, NINJAL, 国立国語研究所共同研究プロジェクト「大規模日常会話コーパスに基づく話し言葉の多角的研究」では,『日本語日常会話コーパス』(CEJC)の構築を進め,2022年3月に最終公開した。CEJCは,(1)日常生活で実際に交わされる会話を対象とすること,(2)多様な場面における多様な話者による会話をバランスよく格納すること,(3)映像まで含めて公開することを特徴とする。日常会話を対象とする映像付き大規模コーパスの構築は世界的に見ても新しい取り組みである。コーパスの規模は,200時間,577会話,240万語,延べ話者数1675人である。本稿では,コーパスの設計・構築について,会話の収録法や収録機器,コーパスの基本構成,公開する音声・映像データのフォーマット,転記テキスト,各種アノテーション等などの観点から概観した上で,収録データのバランスについて検証する。, We have constructed the Corpus of Everyday Japanese Conversation (CEJC) and published it in March 2022. The main features of the CEJC include: i) a focus on conversations that occurred naturally in activities of daily life; ii) a balanced collection of everyday conversations that capture their diversity and facilitate the observation of natural, conversational behavior in daily life; and iii) the publication of audio and video data for a better understanding of the mechanism of real-life social behavior. The publication of a large-scale corpus of everyday conversations that includes video data is a new approach. The CEJC contains 200 hours of speech, 577 conversations, approximately 2.4 million words, and 1,675 speakers. In this paper, we describe the process involved in the design and construction of CEJC including the recording method and devices used, structure of the corpus, formats of the audio and video files, transcription, and annotations. We then examine how the conversations in the corpus were selected and compiled in a balanced manner to showcase their variety., application/pdf}, pages = {153--168}, title = {『日本語日常会話コーパス』設計と構築}, volume = {24}, year = {2023} }