Latest web development tutorials

HTML Jeu de caractères

Pour afficher correctement une page HTML, le navigateur doit connaître le jeu de caractères à utiliser (le codage de caractères).


HTML Jeu de caractères

En HTML, ce qui est le code de caractère correct est?

HTML5 codage de caractères par défaut est UTF-8.

Ce n'est pas toujours le cas. Début codage de caractères de réseau est le code ASCII.

Plus tard, de HTML 2.0 en HTML 4.01, ISO-8859-1 a été identifié comme étant la norme.

Avec l'émergence de HTML5 et XML, UTF-8 est enfin arrivé, résoudre beaucoup de problèmes d'encodage de caractères.

Ce qui suit est un bref aperçu des normes de codage de caractères.


Au début: ASCII

Informations sur l'ordinateur (nombre, texte, images) dans l'électronique est binaire 1 et 0 (01000101) pour le stockage.

Afin de réguler le stockage des caractères alphanumériques, créé ASCII (nom complet de l'American Standard Code for Information Interchange). Il est défini comme chaque caractère est stocké avec un support binaire unique à sept chiffres 0-9, minuscules lettres majuscules / de l'alphabet (az, AZ), et certains caractères spéciaux, tels que $ + - () @ <>.

Depuis ASCII utilise un octet (7 représente le caractère, une parité indique le contrôle de transmission), de sorte qu'il ne peut représenter 128 caractères différents. Il y a 32 de ces caractères sont réservés pour une utilisation comme les autres fins de contrôle.

ASCII plus grand inconvénient est qu'elle exclut les lettres non anglaises.

ASCII est encore largement utilisé aujourd'hui, en particulier dans les grands systèmes informatiques.

Pour un aperçu de ASCII, s'il vous plaît voir le manuel de référence ASCII complète .


Sous Windows: ANSI

ANSI (également connu sous le nom de Windows-1252), est un système Windows 95 et Windows avant le jeu de caractères par défaut.

ANSI ASCII est une extension, il rejoint le caractère international. Il utilise un octet entier (8 bits) pour représenter 256 caractères différents.

Depuis qu'il est devenu caractères Windows ANSI défini par défaut, tous les navigateurs prennent en charge la norme ANSI.

Pour une compréhension en profondeur de la norme ANSI, s'il vous plaît voir le manuel complet de référence ANSI .


En HTML 4 sont: ISO-8859-1

Comme la plupart des pays utilisent des caractères autres que ASCII, la norme HTML 2.0, modifier le caractère par défaut codant ISO-8859-1.

ISO-8859-1 est étendu ASCII, il rejoint le caractère international. Et ANSI, il utilise un octet entier (8 bits) pour représenter 256 caractères différents.

note Lorsqu'un navigateur détecte ISO-8859-1 dans la page, habituellement la valeur par défaut est ANSI, car en plus de la norme ANSI 32 caractères supplémentaires que d'autres aspects de la norme ANSI sensiblement équivalentes à la norme ISO-8859-1.

Si HTML 4 page utilise un autre jeu de caractères ISO-8859-1, vous devez spécifier dans la balise <meta>, comme suit:

Exemples

<meta http-equiv="Content-Type" content="text/html;charset=ISO-8859-8">

note

HTML5 jeu de caractères par défaut est UTF-8.
Tout le soutien HTML 4 processeurs UTF-8, tous HTML5 et XML processeurs support UTF-8 et UTF-16.

Pour une compréhension en profondeur de l' ISO-8859-1, s'il vous plaît voir le manuel complet de référence ISO-8859-1 .


En HTML5: Unicode (UTF-8)

Parce que les jeux de caractères listés ci-dessus sont limitées, dans un environnement multilingue ne sont pas compatibles, de sorte que le Consortium Unicode (Unicode Consortium) a élaboré la norme Unicode (Unicode).

couvertures Unicode standard (presque) tous les caractères, la ponctuation et les symboles.

Unicode permet le traitement, le stockage et le transport du texte, et la plate-forme indépendante de langue.

HTML5 codage de caractères par défaut est UTF-8.

Pour une compréhension en profondeur de l' Unicode (UTF-8), s'il vous plaît voir le manuel de référence Unicode complète .