WEKO3
アイテム
カタカナ語の意味分類に対する大規模言語モデルの有効性検証
https://doi.org/10.15084/0002000356
https://doi.org/10.15084/00020003568f585500-a114-4768-ad66-68e4fb28bca7
| 名前 / ファイル | ライセンス | アクション |
|---|---|---|
|
|
|
| Item type | 会議発表論文 / Conference Paper(1) | |||||||||||||
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 公開日 | 2024-11-13 | |||||||||||||
| タイトル | ||||||||||||||
| タイトル | カタカナ語の意味分類に対する大規模言語モデルの有効性検証 | |||||||||||||
| 言語 | ja | |||||||||||||
| タイトル | ||||||||||||||
| タイトル | Validation of a Large-Scale Linguistic Model forSemantic Classification of Katakana Words | |||||||||||||
| 言語 | en | |||||||||||||
| 言語 | ||||||||||||||
| 言語 | jpn | |||||||||||||
| 資源タイプ | ||||||||||||||
| 資源タイプ識別子 | http://purl.org/coar/resource_type/c_5794 | |||||||||||||
| 資源タイプ | conference paper | |||||||||||||
| ID登録 | ||||||||||||||
| ID登録 | 10.15084/0002000356 | |||||||||||||
| ID登録タイプ | JaLC | |||||||||||||
| 著者 |
小滝, 主紀
× 小滝, 主紀
× 佐々木, 稔
|
|||||||||||||
| 著者所属 | ||||||||||||||
| 内容記述タイプ | Other | |||||||||||||
| 内容記述 | 茨城大学大学院 | |||||||||||||
| 言語 | ja | |||||||||||||
| 著者所属 | ||||||||||||||
| 内容記述タイプ | Other | |||||||||||||
| 内容記述 | 茨城大学 | |||||||||||||
| 言語 | ja | |||||||||||||
| 著者所属(英) | ||||||||||||||
| 内容記述タイプ | Other | |||||||||||||
| 内容記述 | Ibaraki University | |||||||||||||
| 言語 | en | |||||||||||||
| 著者所属(英) | ||||||||||||||
| 内容記述タイプ | Other | |||||||||||||
| 内容記述 | Ibaraki University | |||||||||||||
| 言語 | en | |||||||||||||
| 会議概要(会議名, 開催地, 会期, 主催者等) | ||||||||||||||
| 内容記述タイプ | Other | |||||||||||||
| 内容記述 | 会議名: 言語資源ワークショップ2024, 開催地: オンライン, 会期: 2024年8月28日-29日, 主催: 国立国語研究所 言語資源開発センター, 共催: 言語資源協会, 後援: 国立情報学研究所 | |||||||||||||
| 言語 | ja | |||||||||||||
| 抄録 | ||||||||||||||
| 内容記述タイプ | Abstract | |||||||||||||
| 内容記述 | 本稿では、LLM を用いてカタカナ語の文脈中の意味分類を行った手法と結果について報告する。ChatGPT などの生成 AI の学習に用いられる資源の多くは英語で占められており、日本語の資源はあまり使用されていない。そのため日本語に含まれるカタカナ語は対応する英単語の意味と異なる場合があり、文脈中の意味分類が正しく行われない可能性が高い。そこで『現代日本語書き言葉均衡コーパス』(BCCWJ) に含まれる文章からカタカナ語を含む文章を抽出し、その中から数個の単語を対象として、gpt-3.5-turbo, gpt-4o, gpt-4o-mini, Gemini-Pro,Swallow の 5 つの LLM を用いて Few-shot Learning を行った。実験 1 と実験 2 では生成 AIが作成した意味区分を利用した際の意味分類とプロンプト中で役割を与えることによる影響を、実験 3 では人間の定義した Wiktionary の意味区分を利用した場合の意味分類を上記のLLM で検証した。結果として生成 AI、Wiktionary どちらの意味区分を扱った意味分類でも gpt-4o が最も平均正解率が高く、gpt-4o と Gemini-Pro は役割を与えることでほとんどのプロンプトで回答精度が向上したことが確認できた。また gpt-4o-mini と Gemini-Pro ではWiktionary の意味区分を利用したほうが平均正解率が 20% 以上高くなった。さらに単語による各 LLM 間での正解率の差異もみられ、gpt-4o,gpt-4o,mini,Gemini-Pro 間で顕著であった。 | |||||||||||||
| 言語 | ja | |||||||||||||
| 書誌情報 |
ja : 言語資源ワークショップ発表論文集 en : Proceedings of Language Resources Workshop 巻 1, p. 59-76, ページ数 18, 発行日 2024 |
|||||||||||||
| 関連サイト | ||||||||||||||
| 関連タイプ | isSupplementedBy | |||||||||||||
| 識別子タイプ | URI | |||||||||||||
| 関連識別子 | https://clrd.ninjal.ac.jp/lrw2024.html | |||||||||||||
| 言語 | ja | |||||||||||||
| 関連名称 | 言語資源ワークショップ2024 | |||||||||||||
| フォーマット | ||||||||||||||
| 内容記述タイプ | Other | |||||||||||||
| 内容記述 | application/pdf | |||||||||||||
| 言語 | ja | |||||||||||||
| 著者版フラグ | ||||||||||||||
| 出版タイプ | VoR | |||||||||||||
| 出版タイプResource | http://purl.org/coar/version/c_970fb48d4fbd8a85 | |||||||||||||
| 出版者 | ||||||||||||||
| 出版者 | 国立国語研究所 | |||||||||||||
| 言語 | ja | |||||||||||||