WEKO3
アイテム
『現代日本語書き言葉均衡コーパス』のロシア語翻訳データの構築とその日露対照研究への活用の可能性
https://doi.org/10.15084/00002834
https://doi.org/10.15084/000028347326edec-5eb7-4091-80fa-65769a3a2740
名前 / ファイル | ライセンス | アクション |
---|---|---|
papers1908.pdf (1.1 MB)
|
|
Item type | 紀要論文 / Departmental Bulletin Paper(1) | |||||
---|---|---|---|---|---|---|
公開日 | 2020-07-09 | |||||
タイトル | ||||||
タイトル | 『現代日本語書き言葉均衡コーパス』のロシア語翻訳データの構築とその日露対照研究への活用の可能性 | |||||
タイトル | ||||||
タイトル | Construction of Russian Translation Data for the "Balanced Corpus of Contemporary Written Japanese" and the Possibilities of Using Them in Japanese-Russian Comparative Studies | |||||
言語 | en | |||||
言語 | ||||||
言語 | jpn | |||||
キーワード | ||||||
主題Scheme | Other | |||||
主題 | 『現代日本語書き言葉均衡コーパス』 | |||||
キーワード | ||||||
主題Scheme | Other | |||||
主題 | 対訳コーパス | |||||
キーワード | ||||||
主題Scheme | Other | |||||
主題 | ロシア語 | |||||
キーワード | ||||||
主題Scheme | Other | |||||
主題 | 文末表現 | |||||
キーワード | ||||||
言語 | en | |||||
主題Scheme | Other | |||||
主題 | "Balanced Corpus of Contemporary Written Japanese" | |||||
キーワード | ||||||
言語 | en | |||||
主題Scheme | Other | |||||
主題 | parallel corpus | |||||
キーワード | ||||||
言語 | en | |||||
主題Scheme | Other | |||||
主題 | Russian | |||||
キーワード | ||||||
言語 | en | |||||
主題Scheme | Other | |||||
主題 | expressions at the end of sentences | |||||
資源タイプ | ||||||
資源タイプ識別子 | http://purl.org/coar/resource_type/c_6501 | |||||
資源タイプ | departmental bulletin paper | |||||
ID登録 | ||||||
ID登録 | 10.15084/00002834 | |||||
ID登録タイプ | JaLC | |||||
著者 |
宮内, 拓也
× 宮内, 拓也× プロホロワ, マリア× MIYAUCHI, Takuya× PROKHOROVA, Maria |
|||||
著者所属 | ||||||
内容記述タイプ | Other | |||||
内容記述 | 東京大学 | |||||
著者所属 | ||||||
内容記述タイプ | Other | |||||
内容記述 | 東京外国語大学大学院 博士後期課程 | |||||
著者所属(英) | ||||||
内容記述タイプ | Other | |||||
内容記述 | The University of Tokyo | |||||
著者所属(英) | ||||||
内容記述タイプ | Other | |||||
内容記述 | Ph.D. Student, Tokyo University of Foreign Studies | |||||
抄録 | ||||||
内容記述タイプ | Abstract | |||||
内容記述 | 『現代日本語書き言葉均衡コーパス』(の一部のデータ)には,既に英語,イタリア語,インドネシア語,中国語の翻訳データが構築されているが,新たにロシア語の翻訳データを構築した。対象となる起点テキストは『現代日本語書き言葉均衡コーパス』新聞(PN)コアデータ16サンプル(総語数は短単位で全16,657語)とし,ロシア語目標テキストの総語数は13,070語となった。本データの構築にあたっては,日本語からロシア語へ人手による翻訳を行ったが,日本語とロシア語の言語構造の違いや表現の違い等により,翻訳に困難が生じた箇所もあった。本稿では,翻訳データの構築方法,翻訳の際の留意点の詳細を述べる。また,原文の日本語テキストと翻訳先のロシア語テキストは人手で文単位のアライメントを取り,各文にはIDを付与した。その作業方法についても記述する。翻訳データの構築,アライメント作業により,起点テキストと目標テキストは簡易的な日露パラレルコーパスとして利用可能となり,日露対照研究や類型論研究に活用できると考えられる。本稿では,このような活用の可能性を示すために,ケーススタディとして日本語の文末表現を取り上げ,ロシア語と対照させて同異を議論する。 | |||||
抄録(英) | ||||||
内容記述タイプ | Other | |||||
内容記述 | A part of the data of the "Balanced Corpus of Contemporary Written Japanese" (BCCWJ) is translated into English, Italian, Chinese, and Indonesian. We added new translation data collected from 16 samples of newspaper (PN) core data to BCCWJ in Russian. The total length of the Japanese source text is 16,657 short unit words, which corresponds to 13,070 words in the Russian target text. The translation was conducted manually by a native Russian speaker. During the translation, various difficulties were encountered due to significant structural and lexical differences between Japanese and Russian. This study introduces the data construction method that we used and some key points that we focused on while translating. We also manually aligned all sentences in the source text with those in the translation and assigned an ID to each sentence; this study provides an explanation regarding this workflow as well. Translation and alignment make the original data and their translation function as a simple Japanese-Russian parallel corpus. This can be useful for Japanese-Russian comparative studies and linguistic typology studies. In this study, we address Japanese sentence endings and compare them with Russian ones as a case study to present the possible ways of using our new translation data. | |||||
出版者 | ||||||
出版者 | 国立国語研究所 | |||||
書誌情報 |
国立国語研究所論集 en : NINJAL Research Papers 号 19, p. 167-185, 発行日 2020-07 |
|||||
ISSN | ||||||
収録物識別子タイプ | ISSN | |||||
収録物識別子 | 2186-134X | |||||
ISSN | ||||||
収録物識別子タイプ | ISSN | |||||
収録物識別子 | 2186-1358 | |||||
書誌レコードID | ||||||
収録物識別子タイプ | NCID | |||||
収録物識別子 | AA12536262 | |||||
フォーマット | ||||||
内容記述タイプ | Other | |||||
内容記述 | application/pdf | |||||
著者版フラグ | ||||||
出版タイプ | VoR | |||||
出版タイプResource | http://purl.org/coar/version/c_970fb48d4fbd8a85 |