Latest web development tutorials

Pedoman UTF-8 Referensi HTML

Konsorsium Unicode (Unicode Consortium)

Konsorsium Unicode (Unicode Consortium) mengembangkan standar Unicode (Unicode Standard). Tujuan mereka adalah untuk menggunakan standar Format Transformasi Unicode (yaitu UTF, singkatan Transformasi Format Unicode) untuk menggantikan rangkaian karakter yang ada.

The Unicode Standard merupakan inisiatif yang sukses, di HTML, XML, Java, JavaScript, E-mail, ASP, PHP dicapai. Unicode standar juga banyak sistem operasi dan semua dukungan browser modern.

aliansi Unicode dengan organisasi pembangunan standar terkemuka yang memiliki ISO, W3C, dan ECMA.


set karakter Unicode

Unicode dapat diimplementasikan oleh set karakter yang berbeda. encoding yang paling umum digunakan adalah UTF-8 dan UTF-16:

字符集 描述
UTF-8 UTF8 中的字符可以是 1 到 4 字节长。UTF-8 可以代表 Unicode 标准中的任何字符。UTF-8 向后兼容 ASCII。UTF-8 是电子邮件和网页的首选编码。
UTF-16 16 位 Unicode 转换格式是一种可变长度的 Unicode 字符编码,能够编码整个 Unicode 指令表。UTF-16 主要用于操作系统和环境,如 Microsoft Windows、Java 和 .NET。

Tip: Unicode pertama 128 karakter (ASCII-ke-satu korespondensi) menggunakan nilai ASCII dari oktet biner yang sama dikodekan sehingga teks ASCII valid UTF-8 encoding juga melakukan efektif.

Tip: Semua HTML 4 prosesor dukungan UTF-8, semua HTML 5 dan prosesor XML dukungan UTF-8 dan UTF-16!


standar HTML5: Unicode UTF-8

Karena ukuran set karakter ISO-8859 terbatas dan tidak kompatibel dalam lingkungan multibahasa, Konsorsium Unicode mengembangkan standar Unicode.

Unicode mencakup standar (hampir) semua karakter, tanda baca dan simbol.

Unicode memungkinkan pengolahan, penyimpanan dan transportasi dari teks, dan bahasa platform-independen.

HTML-5 di pengkodean karakter default adalah UTF-8.

Berikut adalah beberapa dukungan HTML5 UTF-8 set karakter:

字符集 十进制 十六进制
C0 控制与基本的 Latin(C0 Controls and Basic Latin) 0-127 0000-007F
C1 控制与 Latin-1 的补充(C1 Controls and Latin-1 Supplement) 128-255 0080-00FF
Latin 扩展 A(Latin Extended-A) 256-383 0100-017F
Latin 扩展 B(Latin Extended-B) 384-591 0180-024F

Jika halaman HTML5 menggunakan UTF-8 karakter berbeda, Anda perlu menentukan dalam <meta> tag sebagai berikut:

contoh

<meta charset="ISO-8859-1">