@article{oai:repository.ninjal.ac.jp:00003454, author = {加藤, 祥 and 森山, 奈々美 and 浅原, 正幸 and KATO, Sachi and MORIYAMA, Nanami and ASAHARA, Masayuki}, issue = {21}, journal = {国立国語研究所論集, NINJAL Research Papers}, month = {Jul}, note = {目白大学, 国立国語研究所 コーパス開発センター 技術補佐員, 国立国語研究所 コーパス開発センター, Mejiro University, Technical Staff, Center for Corpus Development, NINJAL, Center for Corpus Development, NINJAL, 本研究では『現代日本語書き言葉均衡コーパス』(BCCWJ)の書籍全サンプル22,058サンプル(PB(出版)10,117サンプル・LB(図書館)10,551サンプル・OB(ベストセラー)1,390サンプル)に付与された日本十進分類法(NDC)分類記号の補助分類を拡張した。作業は,国立国会図書館サーチのNDC情報を参照し,人手によって分類の確認と追加を行った。また,開発当時NDC分類記号が付与されていなかったサンプル(「分類なし」)などの見直しもあわせて行った。本作業結果により,たとえば形式区分を利用し,ジャンルの分散する「随筆(-049)」「理論(-01)」「教科書(-078)」などのカテゴリでBCCWJサンプルを分類することが可能となった。このほか,時代情報や小項目が追加されたサンプルもあり,今まで以上に詳細な分類が可能となった。本研究では,情報付与作業の方法と基礎情報を報告し,分類例を示す。本データを用いた研究事例として,NDC情報を用いた随筆の抽出と随筆の文体調査結果を報告する。本データは「中納言」の検索で利用できる。, This study presents the enlargement of Nippon Decimal Classification (NDC) metadata of book samples in the "Balanced Corpus of Contemporary Written Japanese (BCCWJ)." We revised and enhanced the NDC information about all of the book samples from the BCCWJ (22,058 samples) comprising PB (books in the publication subcorpus: 10,117 samples), LB (books in library subcorpus: 10,551 samples), and OB (books in the special-purpose subcorpus; namely, best sellers: 1,390 samples). We referred to the NDC information using the National Diet Library Search API and manually re-annotated the NDC information. In addition, we completed the empty entries of the original BCCWJ metadata. Based on these procedures, we were able to classify the BCCWJ book samples according to the genres of essay (-049), theory (-01), and textbook (-078) with the NDC supplemental tables. Furthermore, since finer-grained categories, including their chronological periods, were added to some samples, users can explore a more detailed classification of the book samples. We present the methodology of NDC information enlargement and its basic statistics. We also present experimental research on extraction essays from books and the investigation of their writing style. The compiled data can be used in the corpus query systems of "Chunagon.", application/pdf}, pages = {65--84}, title = {『現代日本語書き言葉均衡コーパス』書籍サンプルのNDC情報増補 : NDC情報を用いた随筆の抽出と文体調査}, year = {2021} }