ISO10646 UCS-2(Unicode)

通用编码字符集(UCS)是 ISO10646 标准的名称,该标准为全世界所有主要语言的书写形式的表示、交换、处理、存储、输入和显示定义了统一的代码。

UCS-2 的字符代码值和 Unicode Consortium 发布的 Unicode 字符编码标准的代码值相同。 UCS-2 为所有主要书写语言中用到的字符定义了代码。 除了一组科学符号、数学符号和出版用符号,UCS-2 还涵盖了以下文字体系:

  • 阿拉伯语
  • 亚美尼亚语
  • 阿塞拜疆语
  • 孟加拉语
  • 汉语拼音字母
  • 西里尔语
  • 梵文
  • 格鲁吉亚语
  • 希腊语
  • 古吉拉特语
  • 果鲁穆奇语
  • 谚文(Hangul)
  • 中文汉字
  • 希伯来语
  • 平假名
  • 国际音标(IPA)
  • 片假名
  • 日语汉字
  • 卡纳达语
  • 韩语汉字
  • 老挝语
  • 拉丁语
  • 马拉雅拉姆语
  • 马耳他语
  • 奥里雅语
  • 泰米尔语
  • 泰卢固语
  • 泰国语
  • 西藏语
  • 乌尔都语
  • 威尔斯语

AIX® 在上述脚本中显示字符的能力仅限于字体的可用性。 AIX 为世界上大多数主要语言提供位图字体,以及基于 Unicode 的可扩展 TrueType 字体。

UCS-2 编码了很多组合字符(combining character),也称为表示浮动发音符的无间距标记。 在包括印度语、泰国语、阿拉伯语和希伯来语在内的多种文字体系中,这些字符是必需的。 在拉丁文、西里尔文和希腊文中,组合字符被用来生成字符。 但是,组合字符的存在也产生了同一文本出现另一种编码的可能性。 虽然这种编码没有歧义性,而且也保护了数据完整性,但是处理含有组合字符的文本就更加复杂了。 为了适应那些选择不处理组合字符的应用程序,ISO10646 定义了下列实现级别:

Level 1
不允许组合字符。
级别 2
允许来自泰国语、印度语、希伯来语和阿拉伯语文字体系的组合标记。
Level 3
允许组合标记,包括拉丁文、西里尔文和希腊文中的组合标记。
注: 在 AIX 操作系统上, ISO10646-1 标签指的是 UCS-2 编码。 此标签可用作 UCS-2 的别名。