@article{oai:repository.ninjal.ac.jp:00000805, author = {浅原, 正幸 and ASAHARA, Masayuki}, issue = {1}, journal = {国語研プロジェクトレビュー, NINJAL Project Review}, month = {Jun}, note = {国立国語研究所言語資源研究系・コーパス開発センター, 国立国語研究所コーパス開発センターでは2011年より超大規模コーパス構築プロジェクトとして,Webを母集団とした100億語規模のコーパスの構築を進めている。構築にあたっては,工程を収集・組織化・利活用・保存の4つに分割して実装を進めている。2012年第4四半期より3か月ごとに1億URLのクロールを繰り返し実施している。本稿では構築されたコーパスデータの基礎統計量を示し,本コーパスを用いて,どのような理論的・応用的研究が可能になると考えられるかを論じる。, In 2011, the National Institute for Japanese Language and Linguistics launched a corpus compilation project with the aim of constructing a ten-billion-word Web corpus. The project was split into the following four sub-projects: page collection, linguistic annotation, release, and preservation. In the page collection stage, crawling began during the fourth quarter of 2012. We crawled 100 million URLs every three months as fixed-point observations. This paper presents the basic statistics of the crawled data and discusses possible theoretical and practical implications of these language resources., application/pdf}, pages = {1--10}, title = {〈プロジェクト紹介〉超大規模コーパス構築プロジェクト 日本語Webコーパスの構築 : 利活用}, volume = {6}, year = {2015}, yomi = {アサハラ, マサユキ} }