Latest web development tutorials

HTML Manuel UTF-8 Référence

Le Consortium Unicode (Unicode Consortium)

Le Consortium Unicode (Unicode Consortium) a élaboré la norme Unicode (Unicode). Leur objectif est d'utiliser le format de transformation Unicode standard (UTF, signifie Unicode Transformation Format) pour remplacer les jeux de caractères existants.

La norme Unicode est une initiative réussie, en HTML, XML, Java, JavaScript, E-mail, ASP, PHP sont atteints. standard Unicode également de nombreux systèmes d'exploitation et de soutien de tous les navigateurs modernes.

Unicode alliance avec les principaux organismes d'élaboration de normes qui ont ISO, W3C et ECMA.


jeu de caractères Unicode

Unicode peut être mis en oeuvre par les différents jeux de caractères. Le codage le plus couramment utilisé est UTF-8 et UTF-16:

字符集 描述
UTF-8 UTF8 中的字符可以是 1 到 4 字节长。UTF-8 可以代表 Unicode 标准中的任何字符。UTF-8 向后兼容 ASCII。UTF-8 是电子邮件和网页的首选编码。
UTF-16 16 位 Unicode 转换格式是一种可变长度的 Unicode 字符编码,能够编码整个 Unicode 指令表。UTF-16 主要用于操作系统和环境,如 Microsoft Windows、Java 和 .NET。

Astuce: Unicode 128 premiers caractères (par correspondance ASCII à un) utilisent une valeur ASCII du même octet binaire est codé de telle sorte que texte ASCII valide UTF-8 mène également efficace.

Astuce: Tous HTML 4 processeurs support UTF-8, tous HTML 5 et les processeurs XML support UTF-8 et UTF-16!


normes HTML5: Unicode UTF-8

Parce que le jeu de caractères taille de l'ISO-8859 est limitée et non compatible dans un environnement multilingue, le Consortium Unicode a élaboré la norme Unicode.

couvertures Unicode standard (presque) tous les caractères, la ponctuation et les symboles.

Unicode permet le traitement, le stockage et le transport du texte, et la plate-forme indépendante de langue.

HTML-5 dans le codage de caractères par défaut est UTF-8.

Voici le soutien HTML5 UTF-8 jeu de caractères:

字符集 十进制 十六进制
C0 控制与基本的 Latin(C0 Controls and Basic Latin) 0-127 0000-007F
C1 控制与 Latin-1 的补充(C1 Controls and Latin-1 Supplement) 128-255 0080-00FF
Latin 扩展 A(Latin Extended-A) 256-383 0100-017F
Latin 扩展 B(Latin Extended-B) 384-591 0180-024F

Si la page HTML5 utilise de caractères UTF-8 est différent, vous devez spécifier dans la balise <meta> comme suit:

Exemples

<meta charset="ISO-8859-1">