Unicode
Unicode es un esquema de codificación que actualmente proporciona un elemento de código exclusivo para más de 100.000 caracteres. Este estándar permite que los sistemas gestionen con mayor facilitad datos globales, independientemente de la plataforma, el programa o el idioma.
- Estos esquemas de codificación tienen una página de códigos por juego de caracteres. Por ejemplo, tienen una página de códigos para caracteres japoneses y otra página de códigos para caracteres alemanes.
- Estos esquemas de codificación suelen codificar datos en diferentes posiciones. Por ejemplo, la letra A se codifica como X'C1' en la mayoría de las páginas de códigos EBCDIC, pero como X'41' en la mayoría de páginas ASCII.
- Incluso dentro de esquemas de codificación, los caracteres pueden correlacionarse de forma diferente. Por ejemplo, la letra ä está codificada como X' C0 ' en la página de códigos EBCDIC 273, pero está codificada como X'43' en la página de códigos EBCDIC 37. (La página de código 37 tiene el carácter de llave izquierda ({)) en la posición X' C0 ') Esta misma letra ä está codificada como X' E4 ' en la página de códigos ASCII 819 y como X'7B'' en la página de códigos ASCII 1011.
Unicode evita estos problemas, ya que tiene un solo estándar que puede proporcionar un elemento de código exclusivo para más de un millón de caracteres. Actualmente, el estándar tiene definidos elementos de código para poco más de 100.000 caracteres. Puede ver los puntos de código Unicode consultando las tablas de códigos de caracteres Unicode en el sitio web del Consorcio Unicode. Por ejemplo, si busca el elemento de código Unicode U+41, puede ver que corresponde al carácter 'A'.
En la tabla siguiente se muestran los primeros 128 elementos de código Unicode, de U+00 aU+7E. Estos elementos de código son los mismos que los de ASCII 367.
| 1st → 2nd↓ | 0- | 1- | 2- | 3- | 4- | 5- | 6- | 7- |
|---|---|---|---|---|---|---|---|---|
| -0 | NUL | DLE | (sp) | 0 | @ | P | ` | p |
| -1 | SCH | DC1 | ! | 1 | A | Q | a | q |
| -2 | STX | DC2 | " | 2 | B | R | b | r |
| -3 | ETX | DC3 | # | 3 | C | S | c | s |
| -4 | EQT | DC4 | $ | 4 | D | T | d | t |
| -5 | ENQ | NAK | % | 5 | E | U | e | u |
| -6 | ACK | SYN | & | 6 | F | V | f | v |
| -7 | BEL | ETB | ' | 7 | G | W | g | w |
| -8 | BS | CAN | ( | 8 | H | X | h | x |
| -9 | HT | EM | ) | 9 | I | Y | i | y |
| -A | LF | SUB | * | : | J | Z | j | z |
| B- | VT | ESC | + | ; | K | [ | k | { |
| -C | FF | FS | , | < | L | \ | l | | |
| -D | OR | GS | - | = | M | ] | m | } |
| -E | SO | RS | . | > | N | ^ | n | ~ |
| -F | SI | US | / | ? | O | _ | o | DEL |