ログイン
言語:

WEKO3

  • トップ
  • ランキング
To
lat lon distance
To

Field does not validate



インデックスリンク

インデックスツリー

メールアドレスを入力してください。

WEKO

One fine body…

WEKO

One fine body…

アイテム

  1. 国立国語研究所論集
  2. 第6号

『日本語歴史コーパス』のための書籍活字の電子化 : 小学館新全集『今昔物語集』を事例として

https://doi.org/10.15084/00000516
https://doi.org/10.15084/00000516
fc42b2b3-4592-4715-b34b-8f4c47671b5e
名前 / ファイル ライセンス アクション
papers0609.pdf papers0609.pdf (1.4 MB)
Item type 紀要論文 / Departmental Bulletin Paper(1)
公開日 2015-10-30
タイトル
タイトル 『日本語歴史コーパス』のための書籍活字の電子化 : 小学館新全集『今昔物語集』を事例として
タイトル
タイトル Digitization of Typeset Books in Constructing the Corpus of Historical Japanese : The Case of the Shogakukan (SNKBZ) Edition of the Konjaku Monogatarishu
言語 en
言語
言語 jpn
キーワード
主題Scheme Other
主題 コーパス構築
キーワード
主題Scheme Other
主題 JIS X0213
キーワード
主題Scheme Other
主題 外字処理
キーワード
主題Scheme Other
主題 今昔物語集
キーワード
言語 en
主題Scheme Other
主題 construction of electronic corpora
キーワード
言語 en
主題Scheme Other
主題 JIS X0213
キーワード
言語 en
主題Scheme Other
主題 non-standard character processing
キーワード
言語 en
主題Scheme Other
主題 Konjaku Monogatarishu
資源タイプ
資源タイプ識別子 http://purl.org/coar/resource_type/c_6501
資源タイプ departmental bulletin paper
ID登録
ID登録 10.15084/00000516
ID登録タイプ JaLC
著者 須永, 哲矢

× 須永, 哲矢

WEKO 6359

須永, 哲矢

ja-Kana スナガ, テツヤ

Search repository
堤, 智昭

× 堤, 智昭

WEKO 6360

堤, 智昭

ja-Kana ツツミ, トモアキ

Search repository
SUNAGA, Tetsuya

× SUNAGA, Tetsuya

WEKO 6361

en SUNAGA, Tetsuya

Search repository
TSUTSUMI, Tomoaki

× TSUTSUMI, Tomoaki

WEKO 6362

en TSUTSUMI, Tomoaki

Search repository
著者所属
内容記述タイプ Other
内容記述 国立国語研究所 コーパス開発センター 非常勤研究員(元)
著者所属
内容記述タイプ Other
内容記述 東京農工大学 博士課程
著者所属(英)
内容記述タイプ Other
内容記述 [former] Adjunct Researcher, Center for Corpus Development, NINJAL
著者所属(英)
内容記述タイプ Other
内容記述 Doctoral Student, Tokyo University of Agriculture and Technology
抄録
内容記述タイプ Abstract
内容記述 国立国語研究所で計画されている『日本語歴史コーパス』の構築にあたっては活字書籍化された古典資料のコーパス化を基本とし,その際には国内規格JIS X0213文字集合を用いて活字を電子化することが予定されている。本稿ではJIS X0213を古典資料の活字書籍に適用した場合の効果を検証するため,小学館新全集『今昔物語集』での漢字活字を調査し,のべ字数にして99.86%の活字がJIS X0213でカバーできることを明らかにし,JIS X0213の有効性を確認した。また,JIS X0213では表現できない活字に関しては,コーパスとしての利便性を鑑み,「〓」表示せずJIS X0213の範囲内の別字で代用しつつ,原資料での字形の情報を保持する方針を考案した。別字代用によりほぼ9割の外字は解消されるが,「〓」表示を完全になくすためには,文字レベルではなく,語の表記というレベルでの代用を考えなければならなくなる。末尾には小学館新全集『今昔物語集』で代用処理の対象となる特殊活字の一覧を付した。
抄録(英)
内容記述タイプ Other
内容記述 Digitizing characters not included in the standard set is an urgent problem for electronic corpora of historical documents. Such non-standard characters have hitherto been replaced with the symbol "〓" in digital corpora, which is quite inconvenient for users. In constructing the Corpus of Historical Japanese, the current Japanese standard for character codes, JIS X0213, will be adopted for the digitization of printed documents. This paper first examines the efficacy of JIS X0213 for typeset versions of old texts. A thorough investigation of the Shogakukan (SNKBZ) edition of the Konjaku Monogatarishu found that JIS X0213 covers 99.86% of the total character tokens. The paper then proposes a substitution system for the remaining 0.14% of the characters not covered by JIS X0213. The idea is to replace these non-standard characters with similar characters that are included in JIS X0213 while retaining information about the original characters for reference. All the non-standard characters in the Shogakukan (SNKBZ) edition of the Konjaku Monogatarishu are listed at the end of the paper along with their replacements.
出版者
出版者 国立国語研究所
書誌情報 国立国語研究所論集
en : NINJAL Research Papers

号 6, p. 163-181, 発行日 2013-11
ISSN
収録物識別子タイプ ISSN
収録物識別子 2186-134X
ISSN
収録物識別子タイプ ISSN
収録物識別子 2186-1358
書誌レコードID
収録物識別子タイプ NCID
収録物識別子 AA12536262
フォーマット
内容記述タイプ Other
内容記述 application/pdf
著者版フラグ
出版タイプ VoR
出版タイプResource http://purl.org/coar/version/c_970fb48d4fbd8a85
戻る
0
views
See details
Views

Versions

Ver.1 2023-05-15 15:19:54.693512
Show All versions

Share

Mendeley Twitter Facebook Print Addthis

Cite as

エクスポート

OAI-PMH
  • OAI-PMH JPCOAR 2.0
  • OAI-PMH JPCOAR 1.0
  • OAI-PMH DublinCore
  • OAI-PMH DDI
Other Formats
  • JSON
  • BIBTEX

Confirm


Powered by WEKO3


Powered by WEKO3