ISO10646 UCS-2(Unicode)
通用编码字符集(UCS)是 ISO10646 标准的名称,该标准为全世界所有主要语言的书写形式的表示、交换、处理、存储、输入和显示定义了统一的代码。
UCS-2 的字符代码值和 Unicode Consortium 发布的 Unicode 字符编码标准的代码值相同。 UCS-2 为所有主要书写语言中用到的字符定义了代码。 除了一组科学符号、数学符号和出版用符号,UCS-2 还涵盖了以下文字体系:
- 阿拉伯语
- 亚美尼亚语
- 阿塞拜疆语
- 孟加拉语
- 汉语拼音字母
- 西里尔语
- 梵文
- 格鲁吉亚语
- 希腊语
- 古吉拉特语
- 果鲁穆奇语
- 谚文(Hangul)
- 中文汉字
- 希伯来语
- 平假名
- 国际音标(IPA)
- 片假名
- 日语汉字
- 卡纳达语
- 韩语汉字
- 老挝语
- 拉丁语
- 马拉雅拉姆语
- 马耳他语
- 奥里雅语
- 泰米尔语
- 泰卢固语
- 泰国语
- 西藏语
- 乌尔都语
- 威尔斯语
AIX® 在上述脚本中显示字符的能力仅限于字体的可用性。 AIX 为世界上大多数主要语言提供位图字体,以及基于 Unicode 的可扩展 TrueType 字体。
UCS-2 编码了很多组合字符(combining character),也称为表示浮动发音符的无间距标记。 在包括印度语、泰国语、阿拉伯语和希伯来语在内的多种文字体系中,这些字符是必需的。 在拉丁文、西里尔文和希腊文中,组合字符被用来生成字符。 但是,组合字符的存在也产生了同一文本出现另一种编码的可能性。 虽然这种编码没有歧义性,而且也保护了数据完整性,但是处理含有组合字符的文本就更加复杂了。 为了适应那些选择不处理组合字符的应用程序,ISO10646 定义了下列实现级别:
- Level 1
- 不允许组合字符。
- 级别 2
- 允许来自泰国语、印度语、希伯来语和阿拉伯语文字体系的组合标记。
- Level 3
- 允许组合标记,包括拉丁文、西里尔文和希腊文中的组合标记。
注: 在 AIX 操作系统上, ISO10646-1 标签指的是 UCS-2 编码。 此标签可用作 UCS-2 的别名。