電子出版における文字:〓(ゲタ)は良心的な処理か

2009/02/18 當山日出夫

さて、2月15日の「電子出版における文字」の、直接のつづき。

いくつか問題点はあるのだが、その最大の課題の一つが、無い字をどうするか、ということ。

デジタル版『内村鑑三全集』データの作成の段階で、「今昔文字鏡」を使ったことは前にのべたとおり。(どのバージョンかは確認していない、おそらく、8万字TTF版、かと思うが。)フォントのライセンスの問題を、とりあえずおいておく。(これは、とても重要な問題であるが。)

問題は、
・「見える字」と「検索できる字」のくいちがい。
・もし、字が化けてしまったり、完全に抜け落ちてしまったりしたら、どうしようもない。

結論から言った方がはやい。私はこう考える。0213(04)でも含まれないような字を、はたして、検索するだろうか? また、単漢字単位で、すべての漢字が見えている必要があるのだろうか? 私は、一部の文字は「ゲタ(〓)」であっても、かまわないし、むしろ、その方が良いと、考える。

もし仮に、書籍版の『全集』を読んでいるユーザが、ある言葉・用語の他の箇所での使用例をみたいと思ったとき、「単漢字検索」ということが、実際にあるだろうか。たぶん、「熟語」「語」での検索になるだろう。

表記・漢字の研究ということであれば、検索対象となる可能性はある。だが、この立場にたって考えて見ても、デジタルの内部で検索可能である必要性はない。0213(04)で表記不可能な字は限定されている、これは、マニュアルに一覧で書いてあれば、十分である。きわめて希な使用例の文字は、その字と全集での使用箇所(巻・ページ・行)が、別に一覧表であれば、研究に支障はない。

技術的には、無理矢理にでも、文字を画像で作って、PDFに埋め込んで見せることは可能であろう。この場合、とりあえず、見た目の印象は、「きれい」である。

しかし、この処置をした場合、
・検索できない
・プレーンテキストを取り出したとき、もし、字が化けたり、完全に抜け落ちて前後の文字列が連続してしてしまったりしたら、その箇所を発見するのは、ほとんど絶望的に不可能である。

何のためのデジタル版テキストであるのか。ただ、書籍版『全集』のかわりとして、ディスプレイで「読む」ためであるのか。そうでないとすれば、
・検索ができる。
・論文を書くときに、コピーしてそのまま利用できる。
この2点にメリットがあることになる。このとき、「安定した」テキストを提供できるかどうか、これこそ、最も重要なポイントである。

このように考えたとき、0213(04)に無い字(おそらく、検索のために入力することもできない)について、Uunicode(Ext.Bまで拡大して)にもしあったとしても、強いてコードポイントをあたえる必要性があるだろうか。

次の改訂デジタル版(Ver.2)を視野に入れて考えるならば、現時点で、確実に安定して使用できることの方が優先されるべきである。その範囲は、0213(04)になる。これを越える、範囲の文字は、〓(ゲタ)でよい。

かつての紙の本(書籍)の印刷であれば、どのような手段をつかおうが、紙の上に見える状態にすればよかった。それが、出版社・印刷業の、目的であった。そのために、活版でも、写植でも、現在のコンピュータ組版でも、種々の苦労と工夫がある。

しかし、電子出版となったとき、現在の世の中に存在する様々なコンピュータ、そして、その将来を視野に入れて考えると、〓(ゲタ)というのも、一つの選択肢である。利用にあたって、化けてしまったり消えてしまったりした文字を探す苦労と、〓(ゲタ)になっている字を、書籍や画像データを参照して適切なフォントで置き換えることと、このどちらが難しいか/簡単であるか。附属の〓(ゲタ)の文字一覧(紙または画像データ)に、今昔文字鏡番号が付加してあれば、それで十分であろう。

ディスプレイ上で見えることだけを目的とするならば、なんらかの対応の方法はある。しかし、デジタル環境での利活用を考えるならば、同一コードポイントで字が化けるようなことは、絶対に避けなければならない。また、引用したら字が消えることは許されない。これが、何よりも優先する。

あえて〓(ゲタ)にすることこそ、良心的な処置である。

これには、反論があるかと思うが、今の私の考えを記してみた。なお、正規表現検索が可能な条件では、多少ことなってくるかと思う。ただ、今の、企画書を見る限り、正規表現はつかえない。

當山日出夫(とうやまひでお)