WEKO3
アイテム
コーパス日本語学のための言語資源 : 形態素解析用電子化辞書の開発とその応用
https://doi.org/10.15084/00002185
https://doi.org/10.15084/0000218521de91f9-03d4-4dc5-8a08-574bd252743c
名前 / ファイル | ライセンス | アクション |
---|---|---|
kk_ngkgk_022_07.pdf (1.8 MB)
|
|
Item type | 紀要論文 / Departmental Bulletin Paper(1) | |||||
---|---|---|---|---|---|---|
公開日 | 2019-03-25 | |||||
タイトル | ||||||
タイトル | コーパス日本語学のための言語資源 : 形態素解析用電子化辞書の開発とその応用 | |||||
タイトル | ||||||
タイトル | The development of an electronic dictionary for morphological analysis and its application to Japanese corpus linguistics | |||||
言語 | en | |||||
言語 | ||||||
言語 | jpn | |||||
キーワード | ||||||
主題Scheme | Other | |||||
主題 | 電子化辞書 | |||||
キーワード | ||||||
主題Scheme | Other | |||||
主題 | 形態素解析 | |||||
キーワード | ||||||
主題Scheme | Other | |||||
主題 | データベース | |||||
キーワード | ||||||
主題Scheme | Other | |||||
主題 | 単位の斉一性 | |||||
キーワード | ||||||
主題Scheme | Other | |||||
主題 | 見出しの同一性 | |||||
キーワード | ||||||
言語 | en | |||||
主題Scheme | Other | |||||
主題 | electronic dictionary | |||||
キーワード | ||||||
言語 | en | |||||
主題Scheme | Other | |||||
主題 | morphological analysis | |||||
キーワード | ||||||
言語 | en | |||||
主題Scheme | Other | |||||
主題 | database system | |||||
キーワード | ||||||
言語 | en | |||||
主題Scheme | Other | |||||
主題 | uniformity of units | |||||
キーワード | ||||||
言語 | en | |||||
主題Scheme | Other | |||||
主題 | identity of indexes | |||||
資源タイプ | ||||||
資源タイプ識別子 | http://purl.org/coar/resource_type/c_6501 | |||||
資源タイプ | departmental bulletin paper | |||||
ID登録 | ||||||
ID登録 | 10.15084/00002185 | |||||
ID登録タイプ | JaLC | |||||
著者 |
伝, 康晴
× 伝, 康晴× 小木曽, 智信× 小椋, 秀樹× 山田, 篤× 峯松, 信明× 内元, 清貴× 小磯, 花絵× DEN, Yasuharu× OGISO, Toshinobu× OGURA, Hideki× YAMADA, Atsushi× MINEMATSU, Nobuaki× UCHIMOTO, Kiyotaka× KOISO, Hanae |
|||||
著者所属 | ||||||
内容記述タイプ | Other | |||||
内容記述 | 千葉大学 | |||||
著者所属 | ||||||
内容記述タイプ | Other | |||||
内容記述 | 国立国語研究所 | |||||
著者所属 | ||||||
内容記述タイプ | Other | |||||
内容記述 | 国立国語研究所 | |||||
著者所属 | ||||||
内容記述タイプ | Other | |||||
内容記述 | 京都高度技術研究所 | |||||
著者所属 | ||||||
内容記述タイプ | Other | |||||
内容記述 | 東京大学 | |||||
著者所属 | ||||||
内容記述タイプ | Other | |||||
内容記述 | 情報通信研究機構 | |||||
著者所属 | ||||||
内容記述タイプ | Other | |||||
内容記述 | 国立国語研究所 | |||||
著者所属(英) | ||||||
内容記述タイプ | Other | |||||
内容記述 | Chiba University | |||||
著者所属(英) | ||||||
内容記述タイプ | Other | |||||
内容記述 | The National Institute for Japanese Language | |||||
著者所属(英) | ||||||
内容記述タイプ | Other | |||||
内容記述 | The National Institute for Japanese Language | |||||
著者所属(英) | ||||||
内容記述タイプ | Other | |||||
内容記述 | ASTEM | |||||
著者所属(英) | ||||||
内容記述タイプ | Other | |||||
内容記述 | The University of Tokyo | |||||
著者所属(英) | ||||||
内容記述タイプ | Other | |||||
内容記述 | National Institute of Information and Communications Technology | |||||
著者所属(英) | ||||||
内容記述タイプ | Other | |||||
内容記述 | The National Institute for Japanese Language | |||||
抄録 | ||||||
内容記述タイプ | Abstract | |||||
内容記述 | コーパス日本語学への応用を指向した形態素解析用電子化辞書UniDicを開発した。大規模コーパスに対する形態論情報付与作業には,計算機を用いた形態素解析システムの利用が不可欠であるが,既存の形態素解析システム用辞書には,コーパス日本語学への応用を考える上でさまざまな不都合がある。1つは,単位の認定がある場合には長く,ある場合には短いといった不揃いがあることであり,もう1つは,異表記や異形態に対して同一の見出しが与えられないということである。言語研究で重要な要件となる,このような単位の斉一性や見出しの同一性への対処といったことを中心に,本電子化辞書の設計方針とそれを実装した辞書データベースシステムについて述べる。さらに,この設計の有用性を示すため,表記や語形の変異に関するコーパス分析の事例を紹介する。 | |||||
抄録(英) | ||||||
内容記述タイプ | Other | |||||
内容記述 | In this paper, we describe the design and the implementation of an electronic dictionary for morphological analysis, UniDic, which aims particularly at application to Japanese corpus linguistics. It has been indispensable for the development of a large-scale corpus to utilize an automatic morphological analyzer on computer. The existing dictionaries for morphological analyzers, however, reveal lots of problems when used in corpus linguistics, such as unevenness in defining a unit and failure in handling allomorphs and orthographic variants. Our dictionary, in contrast, deals with the uniformity of units and the identity of indexes, which are important requirements for linguistic analysis of corpora. We adopt multi-level definition of word units, consisting of short-, middle-, and long-unit words, and structured representation of indexes, composed of lemma, word form, orthography, and pronunciation. We develop a database system that straight-forwardly implements this design of the dictionary and a friendly user-interface for dictionary builders to be capable of searching and registering entries with grasping the complex structure of the indexes. We also show how this structured representation benefits us in analyzing morphologically annotated corpora, presenting case studies that investigate the variation of word form in spoken language corpus and the variation of orthography in written language corpus. | |||||
出版者 | ||||||
出版者 | 国書刊行会 | |||||
書誌情報 |
日本語科学 en : Japanese Linguistics 巻 22, p. 101-123, 発行日 2007-10-25 |
|||||
フォーマット | ||||||
内容記述タイプ | Other | |||||
内容記述 | application/pdf | |||||
著者版フラグ | ||||||
出版タイプ | VoR | |||||
出版タイプResource | http://purl.org/coar/version/c_970fb48d4fbd8a85 |