Latest web development tutorials

HTML UTF-8-Referenzhandbuch

Das Unicode Consortium (Unicode Consortium)

Das Unicode Consortium (Unicode Consortium) entwickelt, um den Unicode-Standard (Unicode Standard). Ihr Ziel ist es, den Standard Unicode Transformation Format zu verwenden (dh UTF steht für Unicode Transformation Format), die bestehenden Zeichensätze zu ersetzen.

Der Unicode-Standard ist eine erfolgreiche Initiative, in HTML, XML, Java, JavaScript, E-Mail, ASP, PHP erreicht werden. Unicode-Standard auch viele Betriebssysteme und alle modernen Browser unterstützen.

Unicode-Allianz mit den führenden Standardisierungsorganisationen, die ISO, W3C und ECMA haben.


Unicode-Zeichensatz

Unicode kann durch verschiedene Zeichensätze implementiert werden. Die am häufigsten verwendete Codierung ist UTF-8 und UTF-16:

字符集 描述
UTF-8 UTF8 中的字符可以是 1 到 4 字节长。UTF-8 可以代表 Unicode 标准中的任何字符。UTF-8 向后兼容 ASCII。UTF-8 是电子邮件和网页的首选编码。
UTF-16 16 位 Unicode 转换格式是一种可变长度的 Unicode 字符编码,能够编码整个 Unicode 指令表。UTF-16 主要用于操作系统和环境,如 Microsoft Windows、Java 和 .NET。

Tipp: Unicode ersten 128 Zeichen (ASCII-zu-Eins - Entsprechung) verwenden , um eine ASCII - Wert des gleichen binären Oktett codiert wird , so dass gültige ASCII - Text UTF-8 - Codierung auch leitend ist wirksam.

Tipp: Alle HTML - 4 - Prozessoren unterstützen UTF-8, die alle HTML 5 und XML - Prozessoren unterstützen UTF-8 und UTF-16!


HTML5-Standards: Unicode UTF-8

Da die ISO-8859-Zeichensatzgröße begrenzt ist und nicht kompatibel in einer mehrsprachigen Umgebung entwickelt, das Unicode-Konsortium den Unicode-Standard.

Unicode-Standard deckt (fast) alle Zeichen, Satzzeichen und Symbole.

Unicode ermöglicht die Verarbeitung, Lagerung und Transport des Textes und plattformunabhängige Sprache.

HTML-5 in der Standard - Zeichenkodierung UTF-8 ist .

Hier sind einige HTML5-Unterstützung UTF-8-Zeichensatz:

字符集 十进制 十六进制
C0 控制与基本的 Latin(C0 Controls and Basic Latin) 0-127 0000-007F
C1 控制与 Latin-1 的补充(C1 Controls and Latin-1 Supplement) 128-255 0080-00FF
Latin 扩展 A(Latin Extended-A) 256-383 0100-017F
Latin 扩展 B(Latin Extended-B) 384-591 0180-024F

Wenn HTML5 Seite UTF-8-Zeichen verwendet unterscheidet sich von, müssen Sie in der <meta> -Tag angeben, wie folgt:

Beispiele

<meta charset="ISO-8859-1">