電子出版における文字
2009/02/15 當山日出夫
「やまもも書斎記」の方に、あれこれと書いた。それを、ここの場で、ある程度のまとめをしておきたい。電子出版における文字とは、どうあるべきなのか、という点についてである。
とりあえず、念頭にあるのは『内村鑑三全集』のDVD版の刊行。経緯をまとめてみる。
すでにあるのは、
・岩波書店の全40巻の全集を、忠実に一太郎で再現した文書データ(一太郎文書ファイル)。ルビ・柱、凡例から奥付にいたるまで、完璧にである。
これをどうするかというと、
・PDFによって、DVD版内村鑑三全集として、世にだすこと。
ここで、考え方は、二つある。
1.紙の本(書籍)の再刊が、現状では不可能であるので、電子出版にする。せざるをえない。やむをえない。
2.デジタルデータとしてあるならば、それに対する検索が可能になる。それを可能にした、新しい内村全集をつくる。デジタル環境での、内村鑑三研究への道をひらく。
しかしながら、私の見る限りでは、現在の企画は、この両者の妥協の産物といってもいいのではないか。(もちろん、このデータ作成にたずさわってきた方々の努力を否定するものではない。)
上記の「1」の方としてであれば、単純には、書籍版のスキャン画像データでも用はたりる。そして、この方が、労力は少なくてすむし、また、誤入力の危険も避けられる。ただし、検索はできない。
また「2」の方としてであれば、いくつかの問題がある。
・検索可能なのは、本行の本文データだけ。ルビは対象にならない。内村鑑三の場合、講演筆記などが多いので、むしろルビの方が本文と考えるべき。これが、検索できない。
・PDFにしてあるので、検索用には別のシステムが必要になる。たしかに、Acrobatには、検索機能があり、語レベルの検索であれば、十分かもしれない。だが、それ以上のことはできない。表記のゆれなどには対応できない。
・企画のはじまりから10年近くが経過しているので、その間に、コンピュータの文字環境が大きく変わった。
JIS X 0208(90・97)
JIS X 0213:2000
JIS X 0213:2004
それに、表外漢字(印刷標準字体)、さらには、最近の新常用漢字表(仮称)がある。さらに、WindowsXP から WindowsVista への移行。この先には、次の、Windows7 が見えている。
そして、Unicodeの存在。Ext.Aまで、可能かどうか。
・当然ながら、0208では、字が足りない。入力のプロセスでは、「今昔文字鏡」に依存していた。これは、その時点の判断としては、妥当。しかし、今の時点で、電子出版するとなると、問題になる。
・0208以外の文字を、今昔文字鏡ではない別のフォントで置き換えたとしても、コードポイントとしては、0213(Unidode)に対応しないといけない。でなければ、一般に検索できない。検索語の入力ができない。
・0208内の文字がそのまま残ると、拡張新字体を多くふくむ。内村鑑三であれば、「きとう」祈禱・祈祷、「ぼうとく」冒瀆・冒涜、などが、重要な語である。これをどうするか。
・しかし、それでもなお、表記できない一部の字がある。それをどうするか。
以上のように考えて、次のことが課題になる。
・0213(プラス、Ext.A、ただし、サロゲートペア領域をのぞく)でも、表記できない字ついて、あえてゲタ(〓)にするか。あるいは、文字を「見える」状態にするか。
ここで、もとにかえる。そもそも、いったい何のために、『内村鑑三全集』全40巻のデジタル化をおこなったのか。その目的と意図、そして、利活用はいかにあるべきか。
あまり長くなるので、とりあえずここまで。
當山日出夫(とうやまひでお)