電子出版における文字

2009/02/15 當山日出夫

「やまもも書斎記」の方に、あれこれと書いた。それを、ここの場で、ある程度のまとめをしておきたい。電子出版における文字とは、どうあるべきなのか、という点についてである。

とりあえず、念頭にあるのは『内村鑑三全集』のDVD版の刊行。経緯をまとめてみる。

すでにあるのは、
岩波書店の全40巻の全集を、忠実に一太郎で再現した文書データ(一太郎文書ファイル)。ルビ・柱、凡例から奥付にいたるまで、完璧にである。

これをどうするかというと、
・PDFによって、DVD版内村鑑三全集として、世にだすこと。

ここで、考え方は、二つある。

1.紙の本(書籍)の再刊が、現状では不可能であるので、電子出版にする。せざるをえない。やむをえない。

2.デジタルデータとしてあるならば、それに対する検索が可能になる。それを可能にした、新しい内村全集をつくる。デジタル環境での、内村鑑三研究への道をひらく。

しかしながら、私の見る限りでは、現在の企画は、この両者の妥協の産物といってもいいのではないか。(もちろん、このデータ作成にたずさわってきた方々の努力を否定するものではない。)

上記の「1」の方としてであれば、単純には、書籍版のスキャン画像データでも用はたりる。そして、この方が、労力は少なくてすむし、また、誤入力の危険も避けられる。ただし、検索はできない。

また「2」の方としてであれば、いくつかの問題がある。

・検索可能なのは、本行の本文データだけ。ルビは対象にならない。内村鑑三の場合、講演筆記などが多いので、むしろルビの方が本文と考えるべき。これが、検索できない。

・PDFにしてあるので、検索用には別のシステムが必要になる。たしかに、Acrobatには、検索機能があり、語レベルの検索であれば、十分かもしれない。だが、それ以上のことはできない。表記のゆれなどには対応できない。

・企画のはじまりから10年近くが経過しているので、その間に、コンピュータの文字環境が大きく変わった。
JIS X 0208(90・97)
JIS X 0213:2000
JIS X 0213:2004
それに、表外漢字(印刷標準字体)、さらには、最近の新常用漢字表(仮称)がある。さらに、WindowsXP から WindowsVista への移行。この先には、次の、Windows7 が見えている。
そして、Unicodeの存在。Ext.Aまで、可能かどうか。

・当然ながら、0208では、字が足りない。入力のプロセスでは、「今昔文字鏡」に依存していた。これは、その時点の判断としては、妥当。しかし、今の時点で、電子出版するとなると、問題になる。

・0208以外の文字を、今昔文字鏡ではない別のフォントで置き換えたとしても、コードポイントとしては、0213(Unidode)に対応しないといけない。でなければ、一般に検索できない。検索語の入力ができない。

・0208内の文字がそのまま残ると、拡張新字体を多くふくむ。内村鑑三であれば、「きとう」祈禱・祈祷、「ぼうとく」冒瀆・冒涜、などが、重要な語である。これをどうするか。

・しかし、それでもなお、表記できない一部の字がある。それをどうするか。

以上のように考えて、次のことが課題になる。

・0213(プラス、Ext.A、ただし、サロゲートペア領域をのぞく)でも、表記できない字ついて、あえてゲタ(〓)にするか。あるいは、文字を「見える」状態にするか。

ここで、もとにかえる。そもそも、いったい何のために、『内村鑑三全集』全40巻のデジタル化をおこなったのか。その目的と意図、そして、利活用はいかにあるべきか。

あまり長くなるので、とりあえずここまで。

當山日出夫(とうやまひでお)