WEKO3
アイテム
{"_buckets": {"deposit": "474902b4-851c-47b9-b0e6-cff6d8f6c572"}, "_deposit": {"created_by": 25, "id": "2000113", "owner": "25", "owners": [25], "pid": {"revision_id": 0, "type": "depid", "value": "2000113"}, "status": "published"}, "_oai": {"id": "oai:repository.ninjal.ac.jp:02000113", "sets": ["1700791953904"]}, "author_link": [], "item_10003_biblio_info_32": {"attribute_name": "書誌情報", "attribute_value_mlt": [{"bibliographicIssueDates": {"bibliographicIssueDate": "2023", "bibliographicIssueDateType": "Issued"}, "bibliographicNumberOfPages": "12", "bibliographicPageEnd": "51", "bibliographicPageStart": "40", "bibliographicVolumeNumber": "1", "bibliographic_titles": [{"bibliographic_title": "言語資源ワークショップ発表論文集", "bibliographic_titleLang": "ja"}, {"bibliographic_title": "Proceedings of Language Resources Workshop", "bibliographic_titleLang": "en"}]}]}, "item_10003_description_27": {"attribute_name": "会議概要(会議名, 開催地, 会期, 主催者等)", "attribute_value_mlt": [{"subitem_description": "会議名: 言語資源ワークショップ2023, 開催地: オンライン, 会期: 2023年8月28日-29日, 主催: 国立国語研究所 言語資源開発センター", "subitem_description_language": "ja", "subitem_description_type": "Other"}]}, "item_10003_description_29": {"attribute_name": "抄録", "attribute_value_mlt": [{"subitem_description": "昨今、公開された日中対訳コーパスには,北京日本学研究センターの『中日対訳コーパス』,情報通信研究機構の『NICT多言語対訳コーパス』,JST・NICT共同で構築された『アジア学術論文抜粋コーパス(ASPEC)』,そして,先日公開された『GSK通訳データベース(JNPCコーパス)日中・日西サブコーパス』などがあげられる.しかし,『中日対訳コーパス』に関しては2021年以降,個人・機関問わず対訳コーパスの入手はできなくなっている.そして,『NICT多言語対訳コーパス』は機械翻訳の研究またはシステム開発の一環として構築されたものでデータは非公開となっており,『ASPEC』コーパスは,専門用語が多く含まれ,広く一般的に用いられる言語使用とは言えない。同様に『JNPCコーパス』に関しては,記者会見における登壇者の発話とその同時通訳8件,逐次通訳2件,1件平均1時間半の対訳データが収録されているが,これもレジスターの偏りが問題となる。即ち,日中対照研究を行う研究者が利用できるコーパスは,極めて限定的で,言語資源が乏しい状況であることが読み取れる.発表者は個人利用を目的に2009年から対訳文の収集を始めていたが,この成果物を個人利用に留めるのではなく,オープンにすべきであると考えている。収集済みデータには,雑誌『Taiwan Panorama』約45万字,『聞く中国語』2018年~2021年(48冊)のデータ約176万字,『人民網』ニュース対訳文2014年7月~現在のデータ約272万字が含まれる。今回の発表では,重点的に次の三つ:1)収集済みデータの紹介 2)実用に向けた事例紹介 3)著作権問題についての示唆が含まれる。", "subitem_description_language": "ja", "subitem_description_type": "Abstract"}]}, "item_10003_description_43": {"attribute_name": "フォーマット", "attribute_value_mlt": [{"subitem_description": "\tapplication/pdf", "subitem_description_language": "ja", "subitem_description_type": "Other"}]}, "item_10003_description_51": {"attribute_name": "著者所属", "attribute_value_mlt": [{"subitem_description": "大阪大学", "subitem_description_language": "ja", "subitem_description_type": "Other"}]}, "item_10003_description_52": {"attribute_name": "著者所属(英)", "attribute_value_mlt": [{"subitem_description": "Osaka University", "subitem_description_language": "en", "subitem_description_type": "Other"}]}, "item_10003_identifier_registration": {"attribute_name": "ID登録", "attribute_value_mlt": [{"subitem_identifier_reg_text": "10.15084/0002000113", "subitem_identifier_reg_type": "JaLC"}]}, "item_10003_publisher_45": {"attribute_name": "出版者", "attribute_value_mlt": [{"subitem_publisher": "国立国語研究所"}]}, "item_10003_relation_40": {"attribute_name": "関連サイト", "attribute_value_mlt": [{"subitem_relation_name": [{"subitem_relation_name_language": "ja", "subitem_relation_name_text": "言語資源ワークショップ2023"}], "subitem_relation_type": "isSupplementedBy", "subitem_relation_type_id": {"subitem_relation_type_id_text": "https://clrd.ninjal.ac.jp/lrw2023.html", "subitem_relation_type_select": "URI"}}]}, "item_10003_version_type_44": {"attribute_name": "著者版フラグ", "attribute_value_mlt": [{"subitem_version_resource": "http://purl.org/coar/version/c_970fb48d4fbd8a85", "subitem_version_type": "VoR"}]}, "item_creator": {"attribute_name": "著者", "attribute_type": "creator", "attribute_value_mlt": [{"creatorNames": [{"creatorName": "宮本, 華瑠", "creatorNameLang": "ja"}, {"creatorName": "Miyamoto, Haru", "creatorNameLang": "en"}]}]}, "item_files": {"attribute_name": "ファイル情報", "attribute_type": "file", "attribute_value_mlt": [{"accessrole": "open_date", "date": [{"dateType": "Available", "dateValue": "2023-11-24"}], "displaytype": "detail", "download_preview_message": "", "file_order": 0, "filename": "LRW2023_04-o03-s.pdf", "format": "application/pdf", "future_date_message": "", "is_thumbnail": false, "mimetype": "application/pdf", "size": 0, "url": {"label": "LRW2023_04-o03-s.pdf", "url": "https://repository.ninjal.ac.jp/record/2000113/files/LRW2023_04-o03-s.pdf"}, "version_id": "95d09429-7943-45c5-9d81-98efd5424123"}]}, "item_language": {"attribute_name": "言語", "attribute_value_mlt": [{"subitem_language": "jpn"}]}, "item_resource_type": {"attribute_name": "資源タイプ", "attribute_value_mlt": [{"resourcetype": "conference paper", "resourceuri": "http://purl.org/coar/resource_type/c_5794"}]}, "item_title": "日中対訳コーパスの構築と公開に向けて", "item_titles": {"attribute_name": "タイトル", "attribute_value_mlt": [{"subitem_title": "日中対訳コーパスの構築と公開に向けて", "subitem_title_language": "ja"}, {"subitem_title": "Toward the Construction and Publication of a Japanese-Chinese Bilingual Corpus", "subitem_title_language": "en"}]}, "item_type_id": "10003", "owner": "25", "path": ["1700791953904"], "permalink_uri": "https://doi.org/10.15084/0002000113", "pubdate": {"attribute_name": "PubDate", "attribute_value": "2023-11-24"}, "publish_date": "2023-11-24", "publish_status": "0", "recid": "2000113", "relation": {}, "relation_version_is_last": true, "title": ["日中対訳コーパスの構築と公開に向けて"], "weko_shared_id": -1}
日中対訳コーパスの構築と公開に向けて
https://doi.org/10.15084/0002000113
https://doi.org/10.15084/0002000113d220d1d1-107c-4772-ac23-301f24b38af9
名前 / ファイル | ライセンス | アクション |
---|---|---|
LRW2023_04-o03-s.pdf
|
|
Item type | 会議発表論文 / Conference Paper(1) | |||||||||
---|---|---|---|---|---|---|---|---|---|---|
公開日 | 2023-11-24 | |||||||||
タイトル | ||||||||||
言語 | ja | |||||||||
タイトル | 日中対訳コーパスの構築と公開に向けて | |||||||||
タイトル | ||||||||||
言語 | en | |||||||||
タイトル | Toward the Construction and Publication of a Japanese-Chinese Bilingual Corpus | |||||||||
言語 | ||||||||||
言語 | jpn | |||||||||
資源タイプ | ||||||||||
資源タイプ識別子 | http://purl.org/coar/resource_type/c_5794 | |||||||||
資源タイプ | conference paper | |||||||||
ID登録 | ||||||||||
ID登録 | 10.15084/0002000113 | |||||||||
ID登録タイプ | JaLC | |||||||||
著者 |
宮本, 華瑠
× 宮本, 華瑠
|
|||||||||
著者所属 | ||||||||||
内容記述タイプ | Other | |||||||||
内容記述 | 大阪大学 | |||||||||
言語 | ja | |||||||||
著者所属(英) | ||||||||||
内容記述タイプ | Other | |||||||||
内容記述 | Osaka University | |||||||||
言語 | en | |||||||||
会議概要(会議名, 開催地, 会期, 主催者等) | ||||||||||
内容記述タイプ | Other | |||||||||
内容記述 | 会議名: 言語資源ワークショップ2023, 開催地: オンライン, 会期: 2023年8月28日-29日, 主催: 国立国語研究所 言語資源開発センター | |||||||||
言語 | ja | |||||||||
抄録 | ||||||||||
内容記述タイプ | Abstract | |||||||||
内容記述 | 昨今、公開された日中対訳コーパスには,北京日本学研究センターの『中日対訳コーパス』,情報通信研究機構の『NICT多言語対訳コーパス』,JST・NICT共同で構築された『アジア学術論文抜粋コーパス(ASPEC)』,そして,先日公開された『GSK通訳データベース(JNPCコーパス)日中・日西サブコーパス』などがあげられる.しかし,『中日対訳コーパス』に関しては2021年以降,個人・機関問わず対訳コーパスの入手はできなくなっている.そして,『NICT多言語対訳コーパス』は機械翻訳の研究またはシステム開発の一環として構築されたものでデータは非公開となっており,『ASPEC』コーパスは,専門用語が多く含まれ,広く一般的に用いられる言語使用とは言えない。同様に『JNPCコーパス』に関しては,記者会見における登壇者の発話とその同時通訳8件,逐次通訳2件,1件平均1時間半の対訳データが収録されているが,これもレジスターの偏りが問題となる。即ち,日中対照研究を行う研究者が利用できるコーパスは,極めて限定的で,言語資源が乏しい状況であることが読み取れる.発表者は個人利用を目的に2009年から対訳文の収集を始めていたが,この成果物を個人利用に留めるのではなく,オープンにすべきであると考えている。収集済みデータには,雑誌『Taiwan Panorama』約45万字,『聞く中国語』2018年~2021年(48冊)のデータ約176万字,『人民網』ニュース対訳文2014年7月~現在のデータ約272万字が含まれる。今回の発表では,重点的に次の三つ:1)収集済みデータの紹介 2)実用に向けた事例紹介 3)著作権問題についての示唆が含まれる。 | |||||||||
言語 | ja | |||||||||
書誌情報 |
ja : 言語資源ワークショップ発表論文集 en : Proceedings of Language Resources Workshop 巻 1, p. 40-51, ページ数 12, 発行日 2023 |
|||||||||
関連サイト | ||||||||||
関連タイプ | isSupplementedBy | |||||||||
識別子タイプ | URI | |||||||||
関連識別子 | https://clrd.ninjal.ac.jp/lrw2023.html | |||||||||
言語 | ja | |||||||||
関連名称 | 言語資源ワークショップ2023 | |||||||||
フォーマット | ||||||||||
内容記述タイプ | Other | |||||||||
内容記述 | application/pdf | |||||||||
言語 | ja | |||||||||
著者版フラグ | ||||||||||
出版タイプ | VoR | |||||||||
出版タイプResource | http://purl.org/coar/version/c_970fb48d4fbd8a85 | |||||||||
出版者 | ||||||||||
出版者 | 国立国語研究所 |