@inproceedings{oai:repository.ninjal.ac.jp:00001702, author = {今田, 水穂 and IMADA, Mizuho}, book = {言語資源活用ワークショップ発表論文集, Proceedings of Language Resources Workshop}, month = {}, note = {会議名: 言語資源活用ワークショップ2018, 開催地: 国立国語研究所, 会期: 2018年9月4日-5日, 主催: 国立国語研究所 コーパス開発センター, 語彙多様性を評価する既存の指標には、延べ語数Nと異なり語数V(N)を入力とするもの、単語別の頻度を入力とするもの、単語列を入力とするものなどがある。本発表では、これらの指標の特徴を整理し、「現代日本語書き言葉均衡コーパス」(BCCWJ)を使用して指標値の分布を可視化する。NとV(N)を入力とする指標のいくつかは、両者の間に冪乗則V(N)=aNbを仮定している。TTRはb=1、Rはb=0.5としてaを指標値として利用するが、1では大きすぎ、0.5では小さすぎる。そこでV(N)とNの対数を単回帰分析してbの最適値を推定し、TTRを補正することを考える。実際には冪乗則は成立しないため、この補正は近似的だが、比較的簡単によい補正を得ることができる。この補正値を他の指標と比較し、テキストサイズが指標値の平均やばらつきに及ぼす影響を評価する。また、BCCWJの12のサブコーパスについてbの値を推定し、一覧で示す。, application/pdf, 文部科学省, Ministry of Education, Culture, Sports, Science and Technology}, pages = {519--530}, publisher = {国立国語研究所}, title = {語彙多様性指標の可視化と単回帰分析によるTTRの補正}, volume = {3}, year = {2018}, yomi = {イマダ, ミズホ} }