IBM Workload Automation, Versão 9.3

O que É Unicode

O Unicode foi projetado para tratar do problema causado pela profusão de conjuntos de códigos. Desde o início da programação de computadores, foram desenvolvidas centenas de codificações, cada uma para pequenos grupos de idiomas e com fins especiais. Como resultado, a interpretação de texto, a entrada, a classificação, a exibição e o armazenamento dependem do conhecimento de todos os diferentes tipos de conjuntos de caracteres e de suas codificações. Os programas são gravados para cada identificador uma única codificação de cada vez e alternando-se entre eles, ou convertendo entre codificações externas e internas.

O problema é que não há uma origem competente exclusiva de definições exatas de várias das codificações e de seus nomes. A transferência de texto de um computador para o outro causa, muitas vezes, perda de informações. Além disso, se um programa tiver o código e os dados para executar a conversão entre vários subconjuntos de codificações tradicionais, ele precisa manter vários Megabytes de dados.

O Unicode fornece um único conjunto de caracteres contendo os idiomas de todo o mundo e um número pequeno de formatos e esquemas de codificação conhecidos da máquina para adequar as necessidades de aplicativos e protocolos existentes. Ele foi projetado para melhor interoperabilidade com o ASCII e o ISO-8859-1, os conjuntos de caracteres mais amplamente utilizados, para facilitar a utilização do Unicode em aplicativos e protocolos.

O Unicode possibilita o acesso e a manipulação de caracteres por números exclusivos, seus pontos de código do Unicode e utiliza as codificações mais antigas somente para entrada e saída, se utilizar. Os formatos de Unicode mais amplamente utilizados são:

UTF-32, com unidades de código de 32 bits, cada uma armazenando um único ponto de código. É o mais apropriado para codificação de caracteres simples.
UTF-16, com uma ou duas unidades de código de 16 bits para cada ponto de código. É a codificação padrão para o Unicode.
UTF-8, com uma a quatro unidades de código de 8 bits (bytes) para cada ponto de código. É utilizado principalmente como substituição direta para as codificações mais antigas de MBCS (conjunto de caracteres de vários bytes).