内村鑑三全集の表記とJIS漢字

2009/01/17 當山日出夫

内村鑑三全集(デジタル版)をながめている。内村鑑三の信仰については、ここでは立ち入らないことにする。これはこれで、とても、興味深いのであるが。

手元にもらってあるのは、岩波版の全集を、そのまま、ページ単位で忠実に再現したもの(一太郎による)。したがって、ディスプレイで表示して見るのと、全集の該当ページを開いて見るのと、まったく同じ。ルビはもちろんのこと、ノンブル(頁番号)や柱にいたるまで。

当然ながら、「文字」も原本(岩波版全集)のとおり。

これは、過去10年ほどにわたって行われてきた仕事であり、その間に、コンピュータの文字環境は、大きく変化している。簡略にいえば、次のようになる。

JIS X 0208(78)← JIS C 6226(78) 第1・2水準まで
JIS X 0208(83)← 字体変更
JIS X 0208(97)
JIS X 0213(00)← 第3・4水準の追加
JIS X 0213(04)← 印刷標準字体の制定 字体変更

Unicode Ext.A CJK統合漢字

この流れのなかで、内村全集(デジタル版)の関係について、留意すべきは、次の2点。

第一に、0213(00)を実装したマシンは、基本的に存在しない。JIS規格、および、その字典『増補改訂 JIS漢字字典』(日本規格協会)は、確かに存在するが、世の中に共有で通行するもの(標準的なフォント)としては存在していない。

実際に、Windowsに実装されているのは、0213(04)版のフォント。これは、市販のものとしては、Vistaで実装。あるいは、旧XPマシンでも、マイクロソフト社のHPから、ダウンロードして、フォントの入れ替えが可能。ただし、二者択一である。

旧XPマシンであれば、基本的に、第2水準までの、0208版のフォント(プラス、なにがしかの字種が追加。マシンの設定によって異なる。)

このあたりの事情をふまえないで、「JISの漢字で表記できる/できない」という単純な議論は、無理がある。

第二に、0208の時点からスタートした企画であるので、当然、文字が足りない。このとき、たよりにしたのが、「今昔文字鏡」(であると聞いている)。

実際に見てみると次のような状況である。フォント埋め込みPDFを、検索機能で文字を探す。

葛(0208→0213:04 字体変更になった文字として有名)
Vistaマシン(04)では、デフォルトの表示(MS明朝など)は、「人」。しかし、全集のデータ(フォント埋め込みPDF)では、「ヒ」の方が表示される。0208の字体。

滊(「さんずい+氣」第4水準漢字。つまり、0213で追加。この字は、原本通りに従ったと、全集の凡例に断り書きのある字。「汽」(第1水準)の異体字。)

おそらく、XPマシンの「0208」+「今昔文字鏡」で作業したデータがあって、それを、精興社において、「今昔文字鏡」(0208以外)の字を、現行の0213(04)で、置き換えた。こういう状況かと推測される。(内部的には、ユニコードで処理。)

というようなデータについて、どうすればいいか。既に存在するデータは、尊重しなければならない。一方で、文字コードの変化の現状、そして、未来をふまえた、検索システムが必要。いや、その前に、このデータの成り立ち(文字の処理)について、わかりやすい説明が必要。

この説明文をどうにかしなければならないのが、私の担当、ということになりそうである。すくなくとも、次の、Windows7を、視野にいれておかなければならない。

當山日出夫(とうやまひでお)