Unicode 標準とは

Unicode 標準では、1 つの文字セットおよびその文字セット用の少数のエンコードが正確に定義されています。ユニコードを使用すると、どの言語のテキストでも効率的に処理できます。これにより、1 つのアプリケーションを世界中のユーザーが利用できるようになります。

Unicode 標準以前に存在していたエンコード・システムは、使用されている必須の数字、文字、および記号のすべてに対応しているわけではありませんでした。同じ番号でも、異なるエンコード・システムでは異なる文字に割り当てられている可能性があります。使用するエンコード・システムを誤ると、期待どおりの出力が表示されないことがありました。

Unicode 標準では、プラットフォーム、言語、またはプログラムに関係なくすべての文字にそれぞれ固有の番号が割り当てられます。Unicode 標準を使用すると、さまざまなプラットフォーム、言語、および国で使用できるソフトウェア製品を開発できます。さらに Unicode 標準を使用することで多くの異なるシステムを介してデータを移送することもできます。最新のシステムは Unicode 標準に基づく国際化対応ソリューションを提供しています。

当初の Unicode 標準のレパートリーは、コンピューティングで一般に使用されているすべての主要言語に対応していました。Unicode 標準は拡大を続けており、含まれるスクリプトの数は増え続けています。

Unicode 標準の設計は、従来の文字セットおよびエンコード・スキームといくつかの点で異なっています。

その豊富なレパートリーにより、ユーザーはほぼすべての言語のテキストを効率的に単一の文書に含めることができます。
ユニコードは文字ごとに 1 つ以上のバイトを使用するバイト・ベースでエンコードできますが、デフォルトのエンコード・スキームでは 16 ビット・ユニットを使用します。16 ビット・ユニットではすべての共通文字の処理を大幅に単純化できます。
アクセントやウムラウト付き文字などの多くの文字は、基本文字とアクセントまたはウムラウトの修飾子を結合して作成できます。こうした結合により、別個にエンコードしなければならない文字の数が少なくなります。それぞれの時点で共通文字セットに存在していた文字用の構成済みバリアントは、互換性確保のために組み込まれました。

文字とその使用法は明確に定義され、記述されています。従来の文字セットは通常、文字の名前または図と、その番号およびバイト・エンコードのみを提供します。それに対し、Unicode 標準ではプロパティーの包括的なデータベースが提供されます。またユニコードでは、テキスト処理の多くの側面を取り扱うためのプロセスとアルゴリズムがいくつも定義され、その相互運用性を高めています。

一般に使用されている文字セットのすべての文字を初期の段階で組み込んだことで、Unicode 標準は従来の文字セット間の変換を行う有用なメカニズムとなり、ユニコードでの非ユニコード・テキストの処理を可能にしています。非ユニコードの処理はまずテキストをユニコードに変換して処理し、元のエンコードに戻すことで実現し、この処理でデータが失われることはありません。