文字コード(漢字)の問題点

Aさん> 文字化けメールの様になっているのは、儂の気のせいだろうか?

Bさん> 実は舘野さんの「舘」のへんは「舎」なのですが、漢字コードには該当する漢字がないのでこれで代用します。また、高井さんの「高」もいわゆる「はしごたか」というやつなのですが、これも該当する漢字がありません。ワープロ専用機ならばっちりなのでしょうが、パソコンで、これらの字体の表示並びに印刷を、安価に、実現することは現状では可能でしょうか?


 日本語をコンピュータで実現するのは結構煩雑なことで、そもそもコード体型がJIS,Shift-JIS,EUC などと幾通りもあることで不都合が頻繁に生じます。こちらのマシンで直接日本語メールを受け取れないのもそれが原因ですし。外国にいるとこの不便さを改めて痛感させられます。

 また、漢字については規範を決める機関がはっきりしていないので、本来国語については文部省の国語審議会などで決めて常用漢字を設定したりしていたはずですが、情報の分野ではJISコード表を通産省が勝手に決めてしまった上に、常用外の漢字の書体については勝手に略体字を作ってしまって、おまけに JIS1978 と 1983 とでそれらを入れ替えたりしたし、補助漢字まで作らざるを得なくなったけどそれをサポートするパソコンはほとんどないし、とか、
 以前たしか川越市で住民票の電子化に伴って渡辺さんの「辺」の字を調べてみたら書き間違えも含めて、全部で五十数種類になってしまって、かといって訂正することはできないから全てのフォントを作ったとか、非常に混沌としていますね。

これも日本語が漢字を使い、なおかつ日本人がその書体について一画一画に至るまで気にするからには仕方ないことかもしれません。

 すなわち昭和23年に制定された「当用漢字」(=用いるべき漢字)は当初そのほかの漢字の使用を制限するという意図だったものが、表外の漢字も使いたいという強い国民の要望により「常用漢字(=日常に用いる漢字)に変わって「目安」になり、さらに高速な情報化社会の到来によって矢継ぎ早にコードが設定され、ワープロで簡単に難しい漢字が書けるようになるとますます使用頻度の低い漢字も用意する必要が出てきた、ということでしょう。

# 中国なんかは思い切った漢字簡略化を断行したのにねぇ。

 しかし、たとえどんなに使用頻度の低い文字であっても、それがコンピューター上で表すことができるということはこれからの情報化社会の中では大切なことです。梯子高の高井さんの文字や森鴎外の鴎の正しい字(旧字体)、或いは過去の文献や歴史的資料に出てくるどんな文字でも、それがコンピュータ上で表せないとしたら、それはそのコード体系の欠陥であると言わざるを得ません。

 世界中の文字を一度に扱えるという歌い文句のユニコードは、残念ながらその理想とは大きくかけ離れ、2バイトで扱える6万字の中に漢字やらハングルやらを無理矢理押し込めたものです。日本・中国・韓国で使われる漢字がごちゃ混ぜに、秩序なく入れられているのです。ある文字は1つだけ、あるものは旧字体と新字体と中国の簡体字と3つに分けて、またあるものは旧字体も新字体も区別なく1つのコードに、といった具合に。このコードの中にはもちろん梯子高も上が士ではなく土の形の吉田さんの字も含まれてはいないし、将来もコードの制約から拡張の余地はほとんどありません。

 詳しくは東京大学総合研究博物館の坂村健先生の文章をお読み下さい。私は先生のお考えを支持します。(97年)

----→ と書いていたのですが、どうもそう簡単ではないようです。

 いよいよユニコードが積極的にパソコン(Win & Mac) に取り入れられてきていますし、ところが私が危惧したように、今までの資産をみんなユニコードに書き換えなくてはならないのか、と思うとそんなことはなさそうです。どうやら今の所は、実際の文書のコードは今までのものを使用しつつ、パソコン内部ではユニコードで統一的に扱う、という状況のようです。世界の文字コード体系はユニコードで画一化されるのではなく、むしろ前にも増してさまざまなコーディングが使われ、煩雑化し混沌としてきているようです。この状況の中では、コンピュータに求められるのは統一的な1つのコード体系を強要するのではなくて、様々に使われているものを全て取り込んで、煩雑なところはユーザーが意識しなくてもすむように裏舞台でコード変換を行う、という姿勢なのでしょう。そうなのであれば、ユニコードは多言語環境で文書を作成したい場合には打ってつけですので、一つの選択肢として大いに歓迎できます。ただ実際の所、私はユニコードに載っている全ての文字を出力できるフォントやパソコン環境を見たことがない。夢はまだ先のことなのだろうか。

# 日本語で書いたホームページにフランス語やドイツ語のアクセント記号付きのアルファベットを載せようとすると、うまくいかないので仕方なく 'a とか "u とか書いている。もちろん、<font> コマンドを使うといいのだろうが、それとて相手がその名前のフォントを持っていなかったり、このコマンドに対応していない古いブラウザーを使っていたりするとうまくいかないし、もしうまくいっても東欧系のアルファベットは表現できないことがほとんどである。本当はロシア文字やギリシャ文字も、JISの中の全角文字ではなく、ちゃんとしたプロポーショナルの文字で出したいのだが。この状況、なんとかならないのだろうか。

 ところで、99年初頭にJISコードの第三、第四水準の策定が検討され、ホームページ上でヒアリングの為に一般公開されていました。補助漢字の失敗をふまえ、これを一端白紙撤回した上で、新たに慎重に漢字を選定し、通常の目的にはまず漏れのないコード体系を目指すものだそうです。ユニコードに載っていない漢字が500字近くあり、仮にJISとして認められても、ユニコードに入れてもらえるのか、或いはそもそもパソコンに採用してもらえるのか、心配な面もありますが、私としては賛成したいと思います。(99年5月)



関連文書氏名翻字と漢字のこだわり


リンク先:
     活字から電子文字へ(坂村健先生)
     コンピュータの多国語処理に関するバーチャルシンポ(坂村健先生)
     文字・コードに関する覚え書き(益山氏)
     JISコード


鳥居のことばの館に戻る
鳥居のホームページに戻る