WEKO3
アイテム
『現代日本語書き言葉均衡コーパス』と『分類語彙表』を利用した漢字3文字略熟語の抽出
https://doi.org/10.15084/00001486
https://doi.org/10.15084/00001486f629afa1-1e35-45ba-ad8d-ac1d2f0a6c0b
| 名前 / ファイル | ライセンス | アクション |
|---|---|---|
|
|
|
| Item type | 会議発表論文 / Conference Paper(1) | |||||||||||
|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 公開日 | 2018-03-20 | |||||||||||
| タイトル | ||||||||||||
| タイトル | 『現代日本語書き言葉均衡コーパス』と『分類語彙表』を利用した漢字3文字略熟語の抽出 | |||||||||||
| タイトル | ||||||||||||
| タイトル | Extraction of Clipped Compounds Comprised of Three Character Sino-Japanese Using “Balanced Corpus of Contemporary Written Japanese” and “Word List by Semantic Principles” | |||||||||||
| 言語 | en | |||||||||||
| 言語 | ||||||||||||
| 言語 | jpn | |||||||||||
| キーワード | ||||||||||||
| 主題Scheme | Other | |||||||||||
| 主題 | 分類語彙表 | |||||||||||
| キーワード | ||||||||||||
| 主題Scheme | Other | |||||||||||
| 主題 | 現代日本語書き言葉均衡コーパス(BCCWJ) | |||||||||||
| キーワード | ||||||||||||
| 言語 | en | |||||||||||
| 主題Scheme | Other | |||||||||||
| 主題 | Word List by Semantic Principles | |||||||||||
| キーワード | ||||||||||||
| 言語 | en | |||||||||||
| 主題Scheme | Other | |||||||||||
| 主題 | Balanced Corpus of Contemporary Written Japanese (BCCWJ) | |||||||||||
| 資源タイプ | ||||||||||||
| 資源タイプ識別子 | http://purl.org/coar/resource_type/c_5794 | |||||||||||
| 資源タイプ | conference paper | |||||||||||
| ID登録 | ||||||||||||
| ID登録 | 10.15084/00001486 | |||||||||||
| ID登録タイプ | JaLC | |||||||||||
| 著者 |
山崎, 誠
× 山崎, 誠
WEKO
4471
|
|||||||||||
| 著者所属 | ||||||||||||
| 内容記述タイプ | Other | |||||||||||
| 内容記述 | 国立国語研究所 | |||||||||||
| 会議概要(会議名, 開催地, 会期, 主催者等) | ||||||||||||
| 内容記述タイプ | Other | |||||||||||
| 内容記述 | 会議名: 言語資源活用ワークショップ2016, 開催地: 国立国語研究所, 会期: 2017年3月7日-8日, 主催: 国立国語研究所 コーパス開発センター | |||||||||||
| 抄録 | ||||||||||||
| 内容記述タイプ | Abstract | |||||||||||
| 内容記述 | 「政財界」「国内外」などの漢字 3 字で構成される「略熟語」と呼ばれる形式は,先行研究が少なく実態が明らかでない。国語辞書にも掲載されることが少ない。本発表では,現代日本語にはどのような略熟語が存在するかを『現代日本語書き言葉均衡コーパス』(以下,BCCWJ)と『分類語彙表』を使って自動的に抽出することを試みた。具体的には,BCCWJから,前後が非漢字という条件で漢字 3 文字連続を抜き出し,それらを構成する漢語の頻度および分類語彙表における意味番号を付与したデータを作成した。そこから,出現頻度が一定以上で,構成要素となる漢語の分類番号が一致するものとして 874 語を抽出した。内訳は「政財界」タイプ 656 語,「国内外」タイプ 297 語,重複が 79 語であった。目視で確認したところ,抽出された 3 字漢語には,略熟語でないものも多く,精度を高めるにはさらに別の条件が必要であることが分かった. | |||||||||||
| 書誌情報 |
言語資源活用ワークショップ発表論文集 en : Proceedings of Language Resources Workshop 巻 1, p. 307-316, 発行日 2017 |
|||||||||||
| 関連サイト | ||||||||||||
| 識別子タイプ | URI | |||||||||||
| 関連識別子 | http://pj.ninjal.ac.jp/corpus_center/lrw2016.html | |||||||||||
| 関連名称 | 言語資源活用ワークショップ2016 | |||||||||||
| フォーマット | ||||||||||||
| 内容記述タイプ | Other | |||||||||||
| 内容記述 | application/pdf | |||||||||||
| 著者版フラグ | ||||||||||||
| 出版タイプ | VoR | |||||||||||
| 出版タイプResource | http://purl.org/coar/version/c_970fb48d4fbd8a85 | |||||||||||
| 出版者 | ||||||||||||
| 出版者 | 国立国語研究所 | |||||||||||