5/17

　　失われた幻のユニコード案があったとさ

　私たち日本人がパソコンや携帯機器等の電子機器で使う日本語文字は一般的に2バイト文字と呼ばれています。既にこの呼称は過去の名残りであり3バイト文字なんかも使われている分けですがそれには目をつぶります。おかしな事を誰かが言うとそこから言葉狩りが始まったりするからです。

　日本語の大きな特徴として文章表現に非常に適している事が挙げられます。ツイッターが何故ツイッターという名前かというと1ツイートに使用できる文字数制限の都合で1バイト文字圏では初期の頃『つぶやく』事しかできなかったからです。ですがこれは漢字を使う人々の手によって変わります。『つぶやき』ではなくて『手紙』を書く事ができるようになったからです。1バイト文字圏と漢字文字圏ではツイッターの使い方が全く異なります。

　あまり知られていない事ですが日本語と他国語の文章表現には大きな違いがあります。特に顕著なのは文章表現です。小説などの文章で使われる表現に「描写」がありますがこれはどの言語でも当然のように使われますので割愛します。

　1バイト文字圏の文章は文字の繰り返しが多用されます。「Oh, my God!」を「Oh, my Gooooooood!」とか書いてあるのを見た方も多いと思います。日本語だと「あー！」が「ああああああああああー！」になるようなものです。

　日本語ではこれに追加して文字の種類による表現が加わります。「あー！」「アー！」「嗚呼(ああ)ー！」です。さらにこれに追加してルビ打ちが出てきます。「嗚呼！」「嗚呼(あー)！」「嗚呼(アー)！」「嗚呼(ああ)！」これらは全部意味が同じです。ですが読者の受け取るニュアンスは変わります。これが世界一難しい言語である日本語の力(パワー)です。

　JIS文字やShift-JIS文字は日本限定の規格であり他国の文字規格とぶつかって使用できない事がありました。Windows95の時代に問題となったのはインターネット上の文字化けです。当然それらを1規格にまとめようとする国際会議が開かれます。そこで1バイト文字圏の方々は親切な心で一つの提案をします。

「ルビ(ふりがな)付きの文字もUnicode規格内に単独文字として登録しよう！」

　これを聞いて焦りまくったのが日本代表です。早い話、振り仮名(ルビ)の数だけ同一文字を規格内に登録しようという提案です。まだキラキラネームという単語が登場する前の時代ですがネイティブ日本人ならその可能性を十分に予測できます。だからロビー交渉をやりまくってそれを廃案に追い込みました。

「よく理解できないがネイティブがそれほど反対するのなら何か大きな問題があるのだろう」

　問題ありまくりです。

　そんな事をやられたら3バイトでは文字が足りなくなります。個人の作った登録外字をUnicode規格内に組み込む必要さえ出てきます。某社のOSは既にそれを開始していますが。

　そうやって企画設計されたUnicode規格ですが、何故か漢字の文字化け問題が出ています。大抵のインターネットブラウザーはその当たりを対策済みですので文字化けするテキストファイルをブラウザーに読み込ませるのも一つの方法です。

　国際会議に出席された代表者の方々には心からの感謝を表明します。