WEKO3
アイテム
形態素解析器『Sudachi』のための大規模辞書開発
https://doi.org/10.15084/00001644
https://doi.org/10.15084/0000164492c0da8a-0791-4f7f-8e2e-14f5c2fd13d3
名前 / ファイル | ライセンス | アクション |
---|---|---|
LRW-2018-13-P-1-08.pdf (403.1 kB)
|
|
Item type | 会議発表論文 / Conference Paper(1) | |||||
---|---|---|---|---|---|---|
公開日 | 2019-02-14 | |||||
タイトル | ||||||
タイトル | 形態素解析器『Sudachi』のための大規模辞書開発 | |||||
タイトル | ||||||
タイトル | Large Scale Dictionary Development for Sudachi | |||||
言語 | en | |||||
言語 | ||||||
言語 | jpn | |||||
キーワード | ||||||
主題Scheme | Other | |||||
主題 | UniDic | |||||
キーワード | ||||||
主題Scheme | Other | |||||
主題 | 現代日本語書き言葉均衡コーパス(BCCWJ) | |||||
キーワード | ||||||
主題Scheme | Other | |||||
主題 | 形態素解析 | |||||
キーワード | ||||||
言語 | en | |||||
主題Scheme | Other | |||||
主題 | UniDic | |||||
キーワード | ||||||
言語 | en | |||||
主題Scheme | Other | |||||
主題 | Balanced Corpus of Contemporary Written Japanese (BCCWJ) | |||||
キーワード | ||||||
言語 | en | |||||
主題Scheme | Other | |||||
主題 | Morphological Analysis | |||||
資源タイプ | ||||||
資源タイプ識別子 | http://purl.org/coar/resource_type/c_5794 | |||||
資源タイプ | conference paper | |||||
ID登録 | ||||||
ID登録 | 10.15084/00001644 | |||||
ID登録タイプ | JaLC | |||||
著者 |
坂本, 美保
× 坂本, 美保× 川原, 典子× 久本, 空海× 髙岡, 一馬× 内田, 佳孝× SAKAMOTO, Miho× KAWAHARA, Noriko× HISAMOTO, Sorami× TAKAOKA, Kazuma× UCHIDA, Yoshitaka |
|||||
著者所属 | ||||||
内容記述タイプ | Other | |||||
内容記述 | 株式会社ワークスアプリケーションズ ワークス徳島人工知能NLP研究所 | |||||
著者所属 | ||||||
内容記述タイプ | Other | |||||
内容記述 | 株式会社ワークスアプリケーションズ ワークス徳島人工知能NLP研究所 | |||||
著者所属 | ||||||
内容記述タイプ | Other | |||||
内容記述 | 株式会社ワークスアプリケーションズ ワークス徳島人工知能NLP研究所 | |||||
著者所属 | ||||||
内容記述タイプ | Other | |||||
内容記述 | 株式会社ワークスアプリケーションズ ワークス徳島人工知能NLP研究所 | |||||
著者所属 | ||||||
内容記述タイプ | Other | |||||
内容記述 | 株式会社ワークスアプリケーションズ ワークス徳島人工知能NLP研究所 | |||||
著者所属(英) | ||||||
内容記述タイプ | Other | |||||
内容記述 | WAP Tokushima Laboratory of AI and NLP | |||||
著者所属(英) | ||||||
内容記述タイプ | Other | |||||
内容記述 | WAP Tokushima Laboratory of AI and NLP | |||||
著者所属(英) | ||||||
内容記述タイプ | Other | |||||
内容記述 | WAP Tokushima Laboratory of AI and NLP | |||||
著者所属(英) | ||||||
内容記述タイプ | Other | |||||
内容記述 | WAP Tokushima Laboratory of AI and NLP | |||||
著者所属(英) | ||||||
内容記述タイプ | Other | |||||
内容記述 | WAP Tokushima Laboratory of AI and NLP | |||||
会議概要(会議名, 開催地, 会期, 主催者等) | ||||||
内容記述タイプ | Other | |||||
内容記述 | 会議名: 言語資源活用ワークショップ2018, 開催地: 国立国語研究所, 会期: 2018年9月4日-5日, 主催: 国立国語研究所 コーパス開発センター | |||||
抄録 | ||||||
内容記述タイプ | Abstract | |||||
内容記述 | 我々は,汎用的な日本語形態素解析器『Sudachi』とその辞書を開発した。本稿では,Sudachiの辞書開発内容について述べる。我々は,まず,UniDicをベースとして,見出し表記,品詞,各種パラメータ等,形態素解析をするための辞書情報を整えた。次に,実用上UniDicに不足している語句を見出しとして追加した。これには,NEologdから取り込んだ膨大な固有名称も含まれる。さらに,登録見出しについて,アプリケーションが利用しやすい形態素単位の整備,表記のゆれを同一視するための正規化表記の整備等を行い,辞書内容を充実させた。また,形態素解析精度の向上のため,UniDic由来の見出しについても,弊害となる見出しの抑制や間違いの修正,形態素単位の調整を行った。我々のこれまでの成果は,最新版の辞書ソースに反映しOSSとして公開している。 | |||||
書誌情報 |
言語資源活用ワークショップ発表論文集 en : Proceedings of Language Resources Workshop 巻 3, p. 118-129, 発行日 2018 |
|||||
関連サイト | ||||||
識別子タイプ | URI | |||||
関連識別子 | https://pj.ninjal.ac.jp/corpus_center/lrw2018.html | |||||
関連名称 | 言語資源活用ワークショップ2018 | |||||
フォーマット | ||||||
内容記述タイプ | Other | |||||
内容記述 | application/pdf | |||||
著者版フラグ | ||||||
出版タイプ | VoR | |||||
出版タイプResource | http://purl.org/coar/version/c_970fb48d4fbd8a85 | |||||
出版者 | ||||||
出版者 | 国立国語研究所 |