Latest web development tutorials

Conjunto de Caracteres HTML

Para visualizar correctamente uma página HTML, o navegador deve conhecer o conjunto de caracteres a ser usado (a codificação de caracteres).


Conjunto de Caracteres HTML

Em HTML, o que é o código de caracteres correto é?

HTML5 codificação de caracteres padrão é UTF-8.

Este não é sempre o caso. codificação de caracteres rede precoce é o código ASCII.

Mais tarde, a partir de HTML 2.0 para HTML 4.01, ISO-8859-1 foi identificada como o padrão.

Com o surgimento do HTML5 e XML, UTF-8 chegou finalmente, resolver um monte de problemas de codificação de caracteres.

O que se segue é um breve resumo dos padrões de codificação de caracteres.


No início: ASCII

Informações sobre o computador (número, texto, imagens) em eletrônica é binário 1 e 0 (01000101) para armazenar.

A fim de regulamentar o armazenamento de caracteres alfanuméricos, criado ASCII (nome completo da American Standard Code para Information Interchange). define-se como cada personagem é armazenado com um único sete dígitos apoio binário 0-9, superior / letras minúsculas do alfabeto (az, AZ), e alguns caracteres especiais, como o $ + - () @ <>.

Desde ASCII utiliza um byte (7 representa o caráter, uma paridade indica controle de transmissão), por isso só pode representar 128 caracteres diferentes. Há 32 desses personagens são reservados para uso como os outros fins de controlo.

ASCII maior desvantagem é que ela exclui letras diferentes do inglês.

ASCII ainda está em uso difundido hoje, especialmente em grandes sistemas de computador.

Para a introspecção em ASCII, consulte o manual de referência ASCII completo .


No Windows: ANSI

ANSI (também conhecido como Windows-1252), é um Windows 95 e Windows sistemas anteriores ao conjunto de caracteres padrão.

ANSI ASCII é uma extensão, ele juntou-se ao caráter internacional. Ele usa um byte inteiro (8 bits) para representar 256 caracteres diferentes.

Desde que se tornou caracteres Windows ANSI definir o padrão, todos os navegadores suportam ANSI.

Para a compreensão em profundidade da ANSI, consulte o manual de referência completo ANSI .


Em HTML 4 são: ISO-8859-1

Como a maioria dos países usam diferentes do ASCII caracteres, o padrão HTML 2.0, alterar o caractere padrão codificação ISO-8859-1.

ISO-8859-1 é estendido ASCII, ele juntou-se ao caráter internacional. E ANSI, ele usa um byte inteiro (8 bits) para representar 256 caracteres diferentes.

nota Quando um navegador detecta ISO-8859-1 na página, geralmente o padrão é ANSI, porque, além de ANSI 32 caracteres extras que outros aspectos da ANSI substancialmente equivalentes ISO-8859-1.

Se HTML 4 página usa um conjunto diferente de caracteres ISO-8859-1, você precisa especificar no tag <meta>, como segue:

Exemplos

<meta http-equiv="Content-Type" content="text/html;charset=ISO-8859-8">

nota

HTML5 conjunto de caracteres padrão é UTF-8.
Todo o suporte a HTML 4 processadores UTF-8, todos HTML5 e suporte processadores XML UTF-8 e UTF-16.

Para a compreensão em profundidade de ISO-8859-1, consulte a plena ISO-8859-1 Manual de Referência .


Em HTML5: Unicode (UTF-8)

Porque conjuntos de caracteres listados acima são limitados, num ambiente multilingue não são compatíveis, de modo Unicode Consortium (Unicode Consortium) desenvolveu o padrão Unicode (Unicode Standard).

Unicode tampas padrão (quase) todos os personagens, pontuação e símbolos.

Unicode permite o processamento, armazenamento e transporte do texto e linguagem independente de plataforma.

HTML5 codificação de caracteres padrão é UTF-8.

Para a compreensão em profundidade de Unicode (UTF-8), consulte o manual de referência Unicode completa .