Latest web development tutorials

HTML manual de UTF-8 Referência

O Consórcio Unicode (Unicode Consortium)

O Consórcio Unicode (Unicode Consortium) desenvolveu o padrão Unicode (Unicode Standard). Seu objetivo é usar o formato de transformação Unicode padrão (ou seja, UTF, significa Unicode Transformation Format) para substituir os conjuntos de caracteres existentes.

O padrão Unicode é uma iniciativa de sucesso, em HTML, XML, Java, JavaScript, E-mail, ASP, PHP sejam alcançados. padrão Unicode também muitos sistemas operacionais e todos os modernos suporte navegadores.

aliança Unicode com as principais organizações de desenvolvimento de normas que têm ISO, W3C e ECMA.


conjunto de caracteres Unicode

Unicode pode ser implementado por diferentes conjuntos de caracteres. A codificação mais comumente utilizado é UTF-8 e UTF-16:

字符集 描述
UTF-8 UTF8 中的字符可以是 1 到 4 字节长。UTF-8 可以代表 Unicode 标准中的任何字符。UTF-8 向后兼容 ASCII。UTF-8 是电子邮件和网页的首选编码。
UTF-16 16 位 Unicode 转换格式是一种可变长度的 Unicode 字符编码,能够编码整个 Unicode 指令表。UTF-16 主要用于操作系统和环境,如 Microsoft Windows、Java 和 .NET。

Dica: Unicode primeiros 128 caracteres (correspondência ASCII-para-um) use um valor ASCII do mesmo octeto binário é codificado para que o texto ASCII válidos UTF-8 também está realizando eficaz.

Dica: All HTML suporte 4 processadores UTF-8, todo o HTML 5 e processadores XML suporte UTF-8 e UTF-16!


padrões HTML5: Unicode UTF-8

Como o tamanho ISO-8859 conjunto de caracteres é limitado e não é compatível num ambiente multilingue, o Consórcio Unicode desenvolveu o padrão Unicode.

Unicode tampas padrão (quase) todos os personagens, pontuação e símbolos.

Unicode permite o processamento, armazenamento e transporte do texto e linguagem independente de plataforma.

HTML-5 na codificação de caracteres padrão é UTF-8.

Aqui estão alguns suporte HTML5 conjunto de caracteres UTF-8:

字符集 十进制 十六进制
C0 控制与基本的 Latin(C0 Controls and Basic Latin) 0-127 0000-007F
C1 控制与 Latin-1 的补充(C1 Controls and Latin-1 Supplement) 128-255 0080-00FF
Latin 扩展 A(Latin Extended-A) 256-383 0100-017F
Latin 扩展 B(Latin Extended-B) 384-591 0180-024F

Se HTML5 página usa caracteres UTF-8 é diferente, você precisa especificar no tag <meta> como segue:

Exemplos

<meta charset="ISO-8859-1">