@article{oai:repository.ninjal.ac.jp:00000866, author = {藤本, 灯 and 北﨑, 勇帆 and 市村, 太郎 and 岡部, 嘉幸 and 小木曽, 智信 and 高田, 智和 and FUJIMOTO, Akari and KITAZAKI, Yuho and ICHIMURA, Taro and OKABE, Yoshiyuki and OGISO, Toshinobu and TAKADA, Tomokazu}, issue = {12}, journal = {国立国語研究所論集, NINJAL Research Papers}, month = {Jan}, note = {国立国語研究所 研究系 言語変化研究領域, 東京大学大学院人文社会系研究科 博士課程, 常葉大学, 千葉大学, 国立国語研究所 研究系 言語変化研究領域, 国立国語研究所 研究系 言語変化研究領域, Language Change Division, Research Department, NINJAL, Graduate Student, Humanities and Sociology, The University of Tokyo, Tokoha University, Chiba University, Language Change Division, Research Department, NINJAL, Language Change Division, Research Department, NINJAL, 現在,『日本語歴史コーパス』「江戸時代編」の一環として「人情本コーパス」を構築中である。2015年10月には『比翼連理花廼志満台』を対象とした「人情本コーパス」の試行版(全文検索システム『ひまわり』版)を公開した。人情本のコーパス化は,(1)原本表記に忠実な翻字テキストの作成,(2)(1)に最小限の校訂を加えた『ひまわり』版XMLテキストの作成の段階である。XMLテキストの作成では,基本的に「洒落本コーパス」のタグセットに準拠し,合字や校訂にかかわるタグを追加した人情本用タグセットを用意した。また,『花廼志満台』初編上巻の形態素解析を行った結果,解析精度は約87%であった。人情本に特徴的なイレギュラーな訓の多さが,精度の低さと関係している。今後,形態論情報付きコーパスを構築するにあたっての課題は,イレギュラーな訓を含む漢字に振られた「ルビ」を,どのように扱っていくかである。, The Ninjobon Corpus is currently under construction as a part of the Edo Period Collection of the Corpus of Historical Japanese. In October 2015, a trial version of the Ninjobon Corpus (full text search system in the Himawari edition) focusing on the Hiyokurenri Hana no Shimadai was publicly released. The Ninjobon Corpus creation is at the stage of (1) faithful transcription of the original printed book into text, and (2) creation of the "Himawari" XML texts with minimal revisions to (1). In the creation of the XML texts, the tag set is fundamentally based on the Sharebon Corpus, though a tag set with tags related to ligatures and revisions was prepared for the Ninjobon. Further, the results of a morphological analysis of the first volume of Hana no Shimadai showed an analytical precision of approximately 87%. The low precision is caused by the large number of characteristically irregular readings in the Ninjobon. One challenge in a corpus construction with annotated morphological information is on how to address the "rubies" attached to kanji characters with irregular native Japanese readings., application/pdf}, pages = {1--12}, title = {「人情本コーパス」の設計と構築}, year = {2017}, yomi = {フジモト, アカリ and キタザキ, ユウホ and イチムラ, タロウ and オカベ, ヨシユキ and オギソ, トシノブ and タカダ, トモカズ} }