WEKO3
アイテム
〈プロジェクト紹介〉超大規模コーパス構築プロジェクト 日本語Webコーパスの構築 : 利活用
https://doi.org/10.15084/00000796
https://doi.org/10.15084/00000796a193ea7d-ad56-4083-a828-b086e2fb1c40
| 名前 / ファイル | ライセンス | アクション |
|---|---|---|
|
|
|
| Item type | 紀要論文 / Departmental Bulletin Paper(1) | |||||
|---|---|---|---|---|---|---|
| 公開日 | 2015-10-30 | |||||
| タイトル | ||||||
| タイトル | 〈プロジェクト紹介〉超大規模コーパス構築プロジェクト 日本語Webコーパスの構築 : 利活用 | |||||
| タイトル | ||||||
| タイトル | Building NINJAL Web Japanese Corpus : Use and Application | |||||
| 言語 | en | |||||
| 言語 | ||||||
| 言語 | jpn | |||||
| 資源タイプ | ||||||
| 資源タイプ識別子 | http://purl.org/coar/resource_type/c_6501 | |||||
| 資源タイプ | departmental bulletin paper | |||||
| ID登録 | ||||||
| ID登録 | 10.15084/00000796 | |||||
| ID登録タイプ | JaLC | |||||
| 著者 |
浅原, 正幸
× 浅原, 正幸× ASAHARA, Masayuki |
|||||
| 著者所属 | ||||||
| 内容記述タイプ | Other | |||||
| 内容記述 | 国立国語研究所言語資源研究系・コーパス開発センター | |||||
| 抄録 | ||||||
| 内容記述タイプ | Abstract | |||||
| 内容記述 | 国立国語研究所コーパス開発センターでは2011年より超大規模コーパス構築プロジェクトとして,Webを母集団とした100億語規模のコーパスの構築を進めている。構築にあたっては,工程を収集・組織化・利活用・保存の4つに分割して実装を進めている。2012年第4四半期より3か月ごとに1億URLのクロールを繰り返し実施している。本稿では構築されたコーパスデータの基礎統計量を示し,本コーパスを用いて,どのような理論的・応用的研究が可能になると考えられるかを論じる。 | |||||
| 抄録(英) | ||||||
| 内容記述タイプ | Other | |||||
| 内容記述 | In 2011, the National Institute for Japanese Language and Linguistics launched a corpus compilation project with the aim of constructing a ten-billion-word Web corpus. The project was split into the following four sub-projects: page collection, linguistic annotation, release, and preservation. In the page collection stage, crawling began during the fourth quarter of 2012. We crawled 100 million URLs every three months as fixed-point observations. This paper presents the basic statistics of the crawled data and discusses possible theoretical and practical implications of these language resources. | |||||
| 出版者 | ||||||
| 出版者 | 国立国語研究所 | |||||
| 書誌情報 |
国語研プロジェクトレビュー en : NINJAL Project Review 巻 6, 号 1, p. 1-10, 発行日 2015-06 |
|||||
| ISSN | ||||||
| 収録物識別子タイプ | ISSN | |||||
| 収録物識別子 | 2185-0100 | |||||
| ISSN | ||||||
| 収録物識別子タイプ | ISSN | |||||
| 収録物識別子 | 2185-0119 | |||||
| 書誌レコードID | ||||||
| 収録物識別子タイプ | NCID | |||||
| 収録物識別子 | AA12480598 | |||||
| フォーマット | ||||||
| 内容記述タイプ | Other | |||||
| 内容記述 | application/pdf | |||||
| 著者版フラグ | ||||||
| 出版タイプ | VoR | |||||
| 出版タイプResource | http://purl.org/coar/version/c_970fb48d4fbd8a85 | |||||