WEKO3
アイテム
『日本語歴史コーパス』のための書籍活字の電子化 : 小学館新全集『今昔物語集』を事例として
https://doi.org/10.15084/00000516
https://doi.org/10.15084/00000516fc42b2b3-4592-4715-b34b-8f4c47671b5e
名前 / ファイル | ライセンス | アクション |
---|---|---|
papers0609.pdf (1.4 MB)
|
|
Item type | 紀要論文 / Departmental Bulletin Paper(1) | |||||
---|---|---|---|---|---|---|
公開日 | 2015-10-30 | |||||
タイトル | ||||||
タイトル | 『日本語歴史コーパス』のための書籍活字の電子化 : 小学館新全集『今昔物語集』を事例として | |||||
タイトル | ||||||
タイトル | Digitization of Typeset Books in Constructing the Corpus of Historical Japanese : The Case of the Shogakukan (SNKBZ) Edition of the Konjaku Monogatarishu | |||||
言語 | en | |||||
言語 | ||||||
言語 | jpn | |||||
キーワード | ||||||
主題Scheme | Other | |||||
主題 | コーパス構築 | |||||
キーワード | ||||||
主題Scheme | Other | |||||
主題 | JIS X0213 | |||||
キーワード | ||||||
主題Scheme | Other | |||||
主題 | 外字処理 | |||||
キーワード | ||||||
主題Scheme | Other | |||||
主題 | 今昔物語集 | |||||
キーワード | ||||||
言語 | en | |||||
主題Scheme | Other | |||||
主題 | construction of electronic corpora | |||||
キーワード | ||||||
言語 | en | |||||
主題Scheme | Other | |||||
主題 | JIS X0213 | |||||
キーワード | ||||||
言語 | en | |||||
主題Scheme | Other | |||||
主題 | non-standard character processing | |||||
キーワード | ||||||
言語 | en | |||||
主題Scheme | Other | |||||
主題 | Konjaku Monogatarishu | |||||
資源タイプ | ||||||
資源タイプ識別子 | http://purl.org/coar/resource_type/c_6501 | |||||
資源タイプ | departmental bulletin paper | |||||
ID登録 | ||||||
ID登録 | 10.15084/00000516 | |||||
ID登録タイプ | JaLC | |||||
著者 |
須永, 哲矢
× 須永, 哲矢× 堤, 智昭× SUNAGA, Tetsuya× TSUTSUMI, Tomoaki |
|||||
著者所属 | ||||||
内容記述タイプ | Other | |||||
内容記述 | 国立国語研究所 コーパス開発センター 非常勤研究員(元) | |||||
著者所属 | ||||||
内容記述タイプ | Other | |||||
内容記述 | 東京農工大学 博士課程 | |||||
著者所属(英) | ||||||
内容記述タイプ | Other | |||||
内容記述 | [former] Adjunct Researcher, Center for Corpus Development, NINJAL | |||||
著者所属(英) | ||||||
内容記述タイプ | Other | |||||
内容記述 | Doctoral Student, Tokyo University of Agriculture and Technology | |||||
抄録 | ||||||
内容記述タイプ | Abstract | |||||
内容記述 | 国立国語研究所で計画されている『日本語歴史コーパス』の構築にあたっては活字書籍化された古典資料のコーパス化を基本とし,その際には国内規格JIS X0213文字集合を用いて活字を電子化することが予定されている。本稿ではJIS X0213を古典資料の活字書籍に適用した場合の効果を検証するため,小学館新全集『今昔物語集』での漢字活字を調査し,のべ字数にして99.86%の活字がJIS X0213でカバーできることを明らかにし,JIS X0213の有効性を確認した。また,JIS X0213では表現できない活字に関しては,コーパスとしての利便性を鑑み,「〓」表示せずJIS X0213の範囲内の別字で代用しつつ,原資料での字形の情報を保持する方針を考案した。別字代用によりほぼ9割の外字は解消されるが,「〓」表示を完全になくすためには,文字レベルではなく,語の表記というレベルでの代用を考えなければならなくなる。末尾には小学館新全集『今昔物語集』で代用処理の対象となる特殊活字の一覧を付した。 | |||||
抄録(英) | ||||||
内容記述タイプ | Other | |||||
内容記述 | Digitizing characters not included in the standard set is an urgent problem for electronic corpora of historical documents. Such non-standard characters have hitherto been replaced with the symbol "〓" in digital corpora, which is quite inconvenient for users. In constructing the Corpus of Historical Japanese, the current Japanese standard for character codes, JIS X0213, will be adopted for the digitization of printed documents. This paper first examines the efficacy of JIS X0213 for typeset versions of old texts. A thorough investigation of the Shogakukan (SNKBZ) edition of the Konjaku Monogatarishu found that JIS X0213 covers 99.86% of the total character tokens. The paper then proposes a substitution system for the remaining 0.14% of the characters not covered by JIS X0213. The idea is to replace these non-standard characters with similar characters that are included in JIS X0213 while retaining information about the original characters for reference. All the non-standard characters in the Shogakukan (SNKBZ) edition of the Konjaku Monogatarishu are listed at the end of the paper along with their replacements. | |||||
出版者 | ||||||
出版者 | 国立国語研究所 | |||||
書誌情報 |
国立国語研究所論集 en : NINJAL Research Papers 号 6, p. 163-181, 発行日 2013-11 |
|||||
ISSN | ||||||
収録物識別子タイプ | ISSN | |||||
収録物識別子 | 2186-134X | |||||
ISSN | ||||||
収録物識別子タイプ | ISSN | |||||
収録物識別子 | 2186-1358 | |||||
書誌レコードID | ||||||
収録物識別子タイプ | NCID | |||||
収録物識別子 | AA12536262 | |||||
フォーマット | ||||||
内容記述タイプ | Other | |||||
内容記述 | application/pdf | |||||
著者版フラグ | ||||||
出版タイプ | VoR | |||||
出版タイプResource | http://purl.org/coar/version/c_970fb48d4fbd8a85 |