Latest web development tutorials

Manual de UTF-8 Referencia HTML

El Consorcio Unicode (Unicode Consortium)

El Consorcio Unicode (Unicode Consortium) ha desarrollado el estándar Unicode (Unicode estándar). Su objetivo es utilizar el formato de transformación Unicode estándar (es decir, UTF, representa Unicode Transformation Format) para reemplazar los conjuntos de caracteres existentes.

El estándar Unicode es una iniciativa exitosa, en HTML, XML, Java, JavaScript, E-mail, ASP, PHP son alcanzados. estándar Unicode también muchos sistemas operativos y todo el apoyo de los navegadores modernos.

Unicode alianza con las principales organizaciones de desarrollo de normas que tienen ISO, el W3C y ECMA.


conjunto de caracteres Unicode

Unicode puede ser implementado por diferentes conjuntos de caracteres. La codificación más utilizado es UTF-8 y UTF-16:

字符集 描述
UTF-8 UTF8 中的字符可以是 1 到 4 字节长。UTF-8 可以代表 Unicode 标准中的任何字符。UTF-8 向后兼容 ASCII。UTF-8 是电子邮件和网页的首选编码。
UTF-16 16 位 Unicode 转换格式是一种可变长度的 Unicode 字符编码,能够编码整个 Unicode 指令表。UTF-16 主要用于操作系统和环境,如 Microsoft Windows、Java 和 .NET。

Consejo: Unicode primeros 128 caracteres (ASCII-a-uno correspondencia) utilizar un valor ASCII de la misma octeto binario se codifica para que el texto ASCII válidos codificación UTF-8 también está realizando eficaz.

Consejo: Todo HTML 4 procesadores de soporte UTF-8, todo el HTML 5 y procesadores XML soporte UTF-8 y UTF-16!


estándares HTML5: Unicode UTF-8

Debido a que el tamaño del conjunto de caracteres ISO-8859 es limitada y no es compatible en un entorno multilingüe, el Consorcio Unicode ha desarrollado el estándar Unicode.

cubiertas estándar Unicode (casi) todos los caracteres, signos de puntuación y símbolos.

Unicode permite el procesamiento, el almacenamiento y el transporte del texto, y el lenguaje independiente de la plataforma.

HTML-5 en la codificación de caracteres por defecto es UTF-8.

Éstos son algunos de soporte HTML5 juego de caracteres UTF-8:

字符集 十进制 十六进制
C0 控制与基本的 Latin(C0 Controls and Basic Latin) 0-127 0000-007F
C1 控制与 Latin-1 的补充(C1 Controls and Latin-1 Supplement) 128-255 0080-00FF
Latin 扩展 A(Latin Extended-A) 256-383 0100-017F
Latin 扩展 B(Latin Extended-B) 384-591 0180-024F

Si la página HTML5 utiliza caracteres UTF-8 es diferente de, es necesario especificar en la etiqueta <meta> de la siguiente manera:

Ejemplos

<meta charset="ISO-8859-1">