ログイン
言語:

WEKO3

  • トップ
  • ランキング
To
lat lon distance
To

Field does not validate



インデックスリンク

インデックスツリー

メールアドレスを入力してください。

WEKO

One fine body…

WEKO

One fine body…

アイテム

  1. 国立国語研究所論集
  2. 第7号

Webを母集団とした超大規模コーパスの開発 : 収集と組織化

https://doi.org/10.15084/00000522
https://doi.org/10.15084/00000522
a3c5c405-0145-449e-a083-32eafe22e7f9
名前 / ファイル ライセンス アクション
papers0701.pdf papers0701.pdf (2.0 MB)
Item type 紀要論文 / Departmental Bulletin Paper(1)
公開日 2015-10-30
タイトル
タイトル Webを母集団とした超大規模コーパスの開発 : 収集と組織化
タイトル
タイトル Page Collection and Linguistic Annotation Issues in Ultra Large-Scale Web Corpus Construction
言語 en
言語
言語 jpn
キーワード
主題Scheme Other
主題 コーパス構築
キーワード
主題Scheme Other
主題 Webアーカイブ
キーワード
主題Scheme Other
主題 言語情報組織化
キーワード
主題Scheme Other
主題 言語解析
キーワード
言語 en
主題Scheme Other
主題 corpus development
キーワード
言語 en
主題Scheme Other
主題 web archive
キーワード
言語 en
主題Scheme Other
主題 linguistic information indexing
キーワード
言語 en
主題Scheme Other
主題 linguistic analyzers
資源タイプ
資源タイプ識別子 http://purl.org/coar/resource_type/c_6501
資源タイプ departmental bulletin paper
ID登録
ID登録 10.15084/00000522
ID登録タイプ JaLC
著者 浅原, 正幸

× 浅原, 正幸

WEKO 6293

浅原, 正幸

ja-Kana アサハラ, マサユキ

Search repository
今田, 水穂

× 今田, 水穂

WEKO 6294

今田, 水穂

ja-Kana イマダ, ミズホ

Search repository
保田, 祥

× 保田, 祥

WEKO 6295

保田, 祥

ja-Kana ヤスダ, サチ

Search repository
小西, 光

× 小西, 光

WEKO 6296

小西, 光

ja-Kana コニシ, ヒカリ

Search repository
前川, 喜久雄

× 前川, 喜久雄

WEKO 6297

前川, 喜久雄

ja-Kana マエカワ, キクオ

Search repository
ASAHARA, Masayuki

× ASAHARA, Masayuki

WEKO 6298

en ASAHARA, Masayuki

Search repository
IMADA, Mizuho

× IMADA, Mizuho

WEKO 6299

en IMADA, Mizuho

Search repository
YASUDA, Sachi

× YASUDA, Sachi

WEKO 6300

en YASUDA, Sachi

Search repository
KONISHI, Hikari

× KONISHI, Hikari

WEKO 6301

en KONISHI, Hikari

Search repository
MAEKAWA, Kikuo

× MAEKAWA, Kikuo

WEKO 6302

en MAEKAWA, Kikuo

Search repository
著者所属
内容記述タイプ Other
内容記述 国立国語研究所 コーパス開発センター
著者所属
内容記述タイプ Other
内容記述 国立国語研究所 コーパス開発センター プロジェクト研究員
著者所属
内容記述タイプ Other
内容記述 国立国語研究所 コーパス開発センター プロジェクト研究員
著者所属
内容記述タイプ Other
内容記述 国立国語研究所 コーパス開発センター 非常勤研究員
著者所属
内容記述タイプ Other
内容記述 国立国語研究所 言語資源研究系
著者所属(英)
内容記述タイプ Other
内容記述 Center for Corpus Development, NINJAL
著者所属(英)
内容記述タイプ Other
内容記述 Postdoctoral Research Fellow, Center for Corpus Development, NINJAL
著者所属(英)
内容記述タイプ Other
内容記述 Postdoctoral Research Fellow, Center for Corpus Development, NINJAL
著者所属(英)
内容記述タイプ Other
内容記述 Adjunct Researcher, Center for Corpus Development, NINJAL
著者所属(英)
内容記述タイプ Other
内容記述 Department of Corpus Studies, NINJAL
抄録
内容記述タイプ Abstract
内容記述 国立国語研究所コーパス開発センターでは2011年より超大規模コーパスプロジェクトとして,Webを母集団とした100億語規模のコーパスの構築を進めている。構築にあたっては,工程を収集・組織化・利活用・保存の四つに分割して実装を進めている。本論文ではそのうち最初の2工程について報告する。収集に関しては,2012年第4四半期より3か月ごとに1億URLのクロールを繰り返し実施している。また組織化に関しては,2013年第3四半期までの約1年間に収集されたWebページの文抽出・形態素解析・係り受け解析を実施した。これらの作業に生じた問題とその解決法を示した後,2013年末において構築されたコーパスデータの基礎統計量を示し,本コーパスを用いてどのような理論的・応用的研究が可能になると考えられるかを論じる。
抄録(英)
内容記述タイプ Other
内容記述 In 2011, the National Institute for Japanese Language and Linguistics launched a corpus compilation project with the aim of constructing a ten-billion-word Web corpus. The project was split into the following four sub-projects: page collection, linguistic annotation, release, and preservation. During the page collection stage, crawling began during the fourth quarter of 2012. We crawled 100 million URLs every three months as fixed-point observations. During the linguistic annotation, normalization (HTML tag removal and character encoding conversion), Japanese morphological analysis (word segmentation and part-of-speech tagging), and Japanese dependency analysis were performed on the data that were crawled in the timespan of one year, specifically from the fourth quarter of 2012 to the third quarter of 2013. In this paper, we present the basic statistics of the crawled data and discuss possible theoretical and practical implications of the language resources. Additionally, we address issues encountered during the page collection and linguistic annotation stages, and offer tentative solutions.
出版者
出版者 国立国語研究所
書誌情報 国立国語研究所論集
en : NINJAL Research Papers

号 7, p. 1-26, 発行日 2014-05
ISSN
収録物識別子タイプ ISSN
収録物識別子 2186-134X
ISSN
収録物識別子タイプ ISSN
収録物識別子 2186-1358
書誌レコードID
収録物識別子タイプ NCID
収録物識別子 AA12536262
フォーマット
内容記述タイプ Other
内容記述 application/pdf
著者版フラグ
出版タイプ VoR
出版タイプResource http://purl.org/coar/version/c_970fb48d4fbd8a85
戻る
0
views
See details
Views

Versions

Ver.1 2023-05-15 15:20:35.796145
Show All versions

Share

Mendeley Twitter Facebook Print Addthis

Cite as

エクスポート

OAI-PMH
  • OAI-PMH JPCOAR 2.0
  • OAI-PMH JPCOAR 1.0
  • OAI-PMH DublinCore
  • OAI-PMH DDI
Other Formats
  • JSON
  • BIBTEX

Confirm


Powered by WEKO3


Powered by WEKO3