WEKO3
アイテム
「分類語彙表番号-UniDic語彙素番号対応表」の構築
https://doi.org/10.15084/00002542
https://doi.org/10.15084/000025424e5c5395-4fa9-4de5-b12a-80be5cc3159b
名前 / ファイル | ライセンス | アクション |
---|---|---|
papers1804.pdf (723.6 kB)
|
|
Item type | 紀要論文 / Departmental Bulletin Paper(1) | |||||
---|---|---|---|---|---|---|
公開日 | 2020-01-15 | |||||
タイトル | ||||||
タイトル | 「分類語彙表番号-UniDic語彙素番号対応表」の構築 | |||||
タイトル | ||||||
タイトル | Construction of an Alignment Table between 'Word List by Semantic Principles' and UniDic | |||||
言語 | en | |||||
言語 | ||||||
言語 | jpn | |||||
キーワード | ||||||
主題Scheme | Other | |||||
主題 | 分類語彙表 | |||||
キーワード | ||||||
主題Scheme | Other | |||||
主題 | UniDic | |||||
キーワード | ||||||
主題Scheme | Other | |||||
主題 | 対応表 | |||||
キーワード | ||||||
主題Scheme | Other | |||||
主題 | 大規模日本語コーパス | |||||
キーワード | ||||||
主題Scheme | Other | |||||
主題 | 語義情報付与 | |||||
キーワード | ||||||
言語 | en | |||||
主題Scheme | Other | |||||
主題 | 'Word List by Semantic Principles' | |||||
キーワード | ||||||
言語 | en | |||||
主題Scheme | Other | |||||
主題 | UniDic | |||||
キーワード | ||||||
言語 | en | |||||
主題Scheme | Other | |||||
主題 | alignment table | |||||
キーワード | ||||||
言語 | en | |||||
主題Scheme | Other | |||||
主題 | large-scale Japanese corpus | |||||
キーワード | ||||||
言語 | en | |||||
主題Scheme | Other | |||||
主題 | word-sense annotation | |||||
資源タイプ | ||||||
資源タイプ識別子 | http://purl.org/coar/resource_type/c_6501 | |||||
資源タイプ | departmental bulletin paper | |||||
ID登録 | ||||||
ID登録 | 10.15084/00002542 | |||||
ID登録タイプ | JaLC | |||||
著者 |
近藤, 明日子
× 近藤, 明日子× 田中, 牧郎× KONDO, Asuko× TANAKA, Makiro |
|||||
著者所属 | ||||||
内容記述タイプ | Other | |||||
内容記述 | 国立国語研究所 コーパス開発センター 非常勤研究員 | |||||
著者所属 | ||||||
内容記述タイプ | Other | |||||
内容記述 | 明治大学 | |||||
著者所属(英) | ||||||
内容記述タイプ | Other | |||||
内容記述 | Adjunct Researcher, Center for Corpus Development, NINJAL | |||||
著者所属(英) | ||||||
内容記述タイプ | Other | |||||
内容記述 | Meiji University | |||||
抄録 | ||||||
内容記述タイプ | Abstract | |||||
内容記述 | 日本語の大規模コーパスへの網羅的・体系的な語義情報付与を目的として,語義の体系的な分類を示す大規模な現代日本語のシソーラス『分類語彙表増補改訂版データベース』の見出しと,各種大規模コーパスの構築に利用されている電子化辞書UniDicの見出し(語彙素)との同語関係による対応を表す表形式データの構築を行った。同語判別の作業は分類語彙表・UniDic両者の見出しの表記・読み・類の対応に基づいて人手により行い,その結果,『分類語彙表』の64,759見出しとUniDicの50,795語彙素との同語関係による多対多の対応を表す「分類語彙表番号-UniDic語彙素番号対応表」を構築した。本対応表を活用して大規模コーパスへの網羅的な語義情報付与作業が始まっており,また,形態素解析結果に分類語彙表番号を付与する機能を実装した形態素解析ツールも開発された。一方で,本格的な大規模コーパスへの語義情報の網羅的付与に向けて,対応表の拡張や多義語の語義選択といった課題への対処も必要である。 | |||||
抄録(英) | ||||||
内容記述タイプ | Other | |||||
内容記述 | In this study, we have constructed an alignment table between 'Word List by Semantic Principles (revised and enlarged edition)' (hereafter WLSP) and UniDic to develop large-scale Japanese corpora which is comprehensively annotated with systematic word senses. WLSP is an extensive contemporary Japanese thesaurus with systematic semantic categories. UniDic is a vast lexicon used for Japanese morphological analysis and is utilized in the development of large-scale Japanese corpora. The alignment table defines n-to-n same word relations between 64,759 WLSP entries and 50,795 UniDic lexemes. These relations were manually verified based on scripts, readings, and classes of the WLSP entries and the UniDic lexemes. The development of word-sense annotated Japanese corpora has commenced with the use of the table. A Japanese morphological analysis tool to annotate word-sense was also developed with the table. Meanwhile, for a full-scale development of word-sense annotated Japanese corpora, it is necessary that problems, such as enlargement of the table and identification of word senses in corpora are effectively dealt with. | |||||
出版者 | ||||||
出版者 | 国立国語研究所 | |||||
書誌情報 |
国立国語研究所論集 en : NINJAL Research Papers 号 18, p. 77-91, 発行日 2020-01 |
|||||
ISSN | ||||||
収録物識別子タイプ | ISSN | |||||
収録物識別子 | 2186-134X | |||||
ISSN | ||||||
収録物識別子タイプ | ISSN | |||||
収録物識別子 | 2186-1358 | |||||
書誌レコードID | ||||||
収録物識別子タイプ | NCID | |||||
収録物識別子 | AA12536262 | |||||
フォーマット | ||||||
内容記述タイプ | Other | |||||
内容記述 | application/pdf | |||||
著者版フラグ | ||||||
出版タイプ | VoR | |||||
出版タイプResource | http://purl.org/coar/version/c_970fb48d4fbd8a85 |