ログイン
言語:

WEKO3

  • トップ
  • ランキング
To
lat lon distance
To

Field does not validate



インデックスリンク

インデックスツリー

メールアドレスを入力してください。

WEKO

One fine body…

WEKO

One fine body…

アイテム

  1. 国語研プロジェクトレビュー
  2. 第6巻第1号

〈プロジェクト紹介〉超大規模コーパス構築プロジェクト 日本語Webコーパスの構築 : 利活用

https://doi.org/10.15084/00000796
https://doi.org/10.15084/00000796
a193ea7d-ad56-4083-a828-b086e2fb1c40
名前 / ファイル ライセンス アクション
review060101.pdf review060101.pdf (1.3 MB)
Item type 紀要論文 / Departmental Bulletin Paper(1)
公開日 2015-10-30
タイトル
タイトル 〈プロジェクト紹介〉超大規模コーパス構築プロジェクト 日本語Webコーパスの構築 : 利活用
タイトル
タイトル Building NINJAL Web Japanese Corpus : Use and Application
言語 en
言語
言語 jpn
資源タイプ
資源タイプ識別子 http://purl.org/coar/resource_type/c_6501
資源タイプ departmental bulletin paper
ID登録
ID登録 10.15084/00000796
ID登録タイプ JaLC
著者 浅原, 正幸

× 浅原, 正幸

WEKO 6550

浅原, 正幸

ja-Kana アサハラ, マサユキ

Search repository
ASAHARA, Masayuki

× ASAHARA, Masayuki

WEKO 6551

en ASAHARA, Masayuki

Search repository
著者所属
内容記述タイプ Other
内容記述 国立国語研究所言語資源研究系・コーパス開発センター
抄録
内容記述タイプ Abstract
内容記述 国立国語研究所コーパス開発センターでは2011年より超大規模コーパス構築プロジェクトとして,Webを母集団とした100億語規模のコーパスの構築を進めている。構築にあたっては,工程を収集・組織化・利活用・保存の4つに分割して実装を進めている。2012年第4四半期より3か月ごとに1億URLのクロールを繰り返し実施している。本稿では構築されたコーパスデータの基礎統計量を示し,本コーパスを用いて,どのような理論的・応用的研究が可能になると考えられるかを論じる。
抄録(英)
内容記述タイプ Other
内容記述 In 2011, the National Institute for Japanese Language and Linguistics launched a corpus compilation project with the aim of constructing a ten-billion-word Web corpus. The project was split into the following four sub-projects: page collection, linguistic annotation, release, and preservation. In the page collection stage, crawling began during the fourth quarter of 2012. We crawled 100 million URLs every three months as fixed-point observations. This paper presents the basic statistics of the crawled data and discusses possible theoretical and practical implications of these language resources.
出版者
出版者 国立国語研究所
書誌情報 国語研プロジェクトレビュー
en : NINJAL Project Review

巻 6, 号 1, p. 1-10, 発行日 2015-06
ISSN
収録物識別子タイプ ISSN
収録物識別子 2185-0100
ISSN
収録物識別子タイプ ISSN
収録物識別子 2185-0119
書誌レコードID
収録物識別子タイプ NCID
収録物識別子 AA12480598
フォーマット
内容記述タイプ Other
内容記述 application/pdf
著者版フラグ
出版タイプ VoR
出版タイプResource http://purl.org/coar/version/c_970fb48d4fbd8a85
戻る
0
views
See details
Views

Versions

Ver.1 2023-05-15 15:17:51.876129
Show All versions

Share

Mendeley Twitter Facebook Print Addthis

Cite as

エクスポート

OAI-PMH
  • OAI-PMH JPCOAR 2.0
  • OAI-PMH JPCOAR 1.0
  • OAI-PMH DublinCore
  • OAI-PMH DDI
Other Formats
  • JSON
  • BIBTEX

Confirm


Powered by WEKO3


Powered by WEKO3