第514回:Unicode とは

大和 哲
1968年生まれ東京都出身。88年8月、Oh!X(日本ソフトバンク)にて「我 ら電脳遊戯民」を執筆。以来、パソコン誌にて初歩のプログラミング、HTML、CGI、インターネットプロトコルなどの解説記事、インターネット関連の Q&A、ゲーム分析記事などを書く。兼業テクニカルライター。ホームページはこちら
(イラスト : 高橋哲史)


世界中の文字をひとつの文字コード体系に収録

 「Unicode」(ユニコード)は、“文字コード”の体系の1つです。文字コードは、文字をコンピューター上で利用する際に必要なもので、いわば“文字の形を数値として表わしたもの”です。

 Unicodeの特徴は、たとえば英語や日本語、中国語、タイ語、アラビア語など、さまざまな言語が使われても、同じ文字の形であれば同じ値でその文字を表すことができるという点です。また、プラットフォームに依存しない点も特徴です。たとえばWindows搭載のパソコンでも、Mac OS搭載のパソコンでも、あるいはAndroid、Windows Phoneでも、同じ値であれば同じ文字を表示できます。

 Unicodeは、XMLやJava、JavaScriptといった、IT分野で標準的に使われている技術の前提となっていて、現在のコンピューター、インターネット、携帯電話などといったさまざまなIT技術の基礎となる規格の1つと言えます。

 もともと米国のゼロックスという企業が提唱したもので、ゼロックスのほか、アップル、ヒューレット・パッカード、IBM、ジャストシステム、マイクロソフト、オラクル、SAP、サン、サイベースなどが参加し、設立された非営利団体のユニコードコンソーシアム(The Unicode Consortium)によって策定されました。

 ユニコードコンソーシアムで策定されたUnicodeは、国際標準化機構(ISO)が定める国際標準規格の一部として組み込まれています。具体的にはISO/IEC 10646の一部として標準化されています。

最新版で携帯電話の絵文字も

 Unicodeの特徴は、前述のとおり、世界中で使われている文字を1つの文字コード体系としてまとめようとしている、ということです。

 ただし、この目標は、規格策定当初から達成されていたわけではありません。これまで紆余曲折を経てバージョンアップを繰り返しており、バージョンごとに文字の収録範囲が異なります。現在も収録文字を増やそうとしており、最新のバージョンであっても、世界中の全ての文字を完全に収録しているわけではありません。

 たとえば、漢字の異体字では“渡邊”の「なべ」が何十種類もあることが知られているように、表意文字では異体字が非常に多く存在していたり、絵文字のようなシンボル文字が日々作られていたりしています。

 1991年に最初バージョンのUnicode、Unicode 1.0.0が公開されました。当初は、文字コードが16ビットに固定され、文字種は最大でも6万5536文字しか収録できませんでした。

 中国語、日本語、韓国語で共通に使われる漢字は、「多少字形が異なっても同じように使われる文字であれば同じコードを割り当てる」などとして、西欧の言語や、キリル文字、中国語、日本語(かな含む)、韓国語(ハングル含む)などが収録されました。

 しかし、収録されている文字ではやはり不足が生じました。そのため、使用可能な文字数を大幅に拡張したUnicode 2.0が1996年に策定されました。この際、追加された代用対(サロゲートペア)と呼ばれる仕組みを受けて、まとまった単位で文字が追加されるようになりました。この単位は“面”と呼ばれ、最初のUnicodeで利用されていた文字は第0面に収録された文字となりました。これにより、大幅に利用できる文字数が増え、以降、さらにさまざまな文字が収録されるようになったのです。

 最近では、2010年秋に、最新版となるUnicode 6.0.0(ISO/IEC 10646:2010)が公開されました。このバージョンでは、携帯電話に使われている「絵文字」が追加されるなど、およそ11万文字が追加されています。

 絵文字については、これまで主に携帯電話で使われてきた絵文字を、Unicodeに収録しようという提案が、iPhoneの開発元である米アップル、それにAndroidの開発元であるGoogleから共同で行われ、2008年にemoji4unicodeという名前で絵文字統一化プロジェクトが開始されました。このプロジェクトの成果が「絵文字記号」としてユニコードコンソーシアムに提案され、最終的にUnicode 6.0.0で収録されたのです。

 Unicodeに絵文字が収録されたことで、携帯電話会社間のメールや、携帯電話向けのWebサイトをパソコン向けに変換した場合、Unicode 6以降で設定された文字コードを利用すると、文字化けせずに、正しく表示ができるよう変換可能になったのです。

 最新のバージョンのiOSがインストールされたiPhoneやiPadでは、Unicode 6で表現されたWebサイトなどの絵文字に対応し、画面上に正しく表示できるようになっています。

 



(大和 哲)

2011/5/10 12:24