Latest web development tutorials

HTML UTF-8 參考手冊

Unicode 聯盟(Unicode Consortium)

Unicode 聯盟(Unicode Consortium)開發了Unicode 標準(Unicode Standard)。 他們的目標是使用標準的Unicode 轉換格式(即UTF,全稱Unicode Transformation Format)取代現有的字符集。

Unicode 標準是一個成功的創舉,在HTML、XML、Java、JavaScript、E-mail、ASP、PHP 中都得到實現。 Unicode 標準也得到許多操作系統和所有現代瀏覽器的支持。

Unicode 聯盟與領先的標准開發組織合作,這些組織有ISO、W3C 和ECMA。


Unicode 字符集

Unicode 可以由不同的字符集實現。 最常用的編碼是UTF-8 和UTF-16:

字符集 描述
UTF-8 UTF8 中的字符可以是 1 到 4 字节长。UTF-8 可以代表 Unicode 标准中的任何字符。UTF-8 向后兼容 ASCII。UTF-8 是电子邮件和网页的首选编码。
UTF-16 16 位 Unicode 转换格式是一种可变长度的 Unicode 字符编码,能够编码整个 Unicode 指令表。UTF-16 主要用于操作系统和环境,如 Microsoft Windows、Java 和 .NET。

提示: Unicode的前128個字符(與ASCII一一對應)使用一個與ASCII二進制值相同的八位組進行編碼,使有效的ASCII文本在進行UTF-8編碼時也是有效的。

提示:所有的HTML 4處理器支持UTF-8,所有的HTML 5和XML處理器支持UTF-8和UTF-16!


HTML5 標準:Unicode UTF-8

因為ISO-8859 中字符集大小是有限的,且在多語言環境中不兼容,所以Unicode 聯盟開發了Unicode 標準。

Unicode 標準覆蓋了(幾乎)所有的字符、標點符號和符號。

Unicode 使文本的處理、存儲和運輸,獨立於平台和語言。

HTML-5中默認的字符編碼是UTF-8。

下面列出了一些HTML5 支持的UTF-8 字符集:

字符集 十进制 十六进制
C0 控制与基本的 Latin(C0 Controls and Basic Latin) 0-127 0000-007F
C1 控制与 Latin-1 的补充(C1 Controls and Latin-1 Supplement) 128-255 0080-00FF
Latin 扩展 A(Latin Extended-A) 256-383 0100-017F
Latin 扩展 B(Latin Extended-B) 384-591 0180-024F

如果HTML5 網頁使用不同於UTF-8 的字符,則需要在<meta> 標籤中指定,如下:

實例

<meta charset="ISO-8859-1">