Latest web development tutorials

HTML 字符集

要正確顯示一個HTML 頁面,瀏覽器必須知道要使用的字符集(字符編碼)。


HTML 字符集

在HTML 中,正確的字符編碼是什麼?

HTML5中默認的字符編碼是UTF-8。

這並非總是如此。 早期網絡的字符編碼是ASCII 碼。

後來,從HTML 2.0 到HTML 4.01,ISO-8859-1 被認定為標準。

隨著XML 和HTML5 的出現,UTF-8 也終於到來了,解決了大量的字符編碼問題。

下面是關於字符編碼標準的簡短概述。


在開始的時候:ASCII

計算機信息(數字、文字、圖片)在電子中是以二進制1 和0(01000101)進行存儲的。

為了規範字母數字字符的存儲,創建了ASCII(全稱American Standard Code for Information Interchange)。 它為每個存儲字符定義了一個獨特的二元7 位數字,支持0-9 數字,大/小寫英文字母(az、AZ)和一些特殊的字符,比如! $ + - ( ) @ < > 。

由於ASCII 使用一個字節(7 位表示字符,1 位表示傳輸奇偶控制),所以它只能表示128 個不同的字符。 這些字符中有32 個被保留作為其他控制目的使用。

ASCII 的最大的缺點是,它排除了非英文字母。

ASCII 今天仍然在廣泛使用,尤其是在大型計算機系統中。

如需深入了解ASCII,請查看完整的ASCII參考手冊


在Windows 中:ANSI

ANSI(也稱為Windows-1252),是Windows 95 及其之前的Windows 系統中默認的字符集。

ANSI 是ASCII 的擴展,它加入了國際字符。 它使用一個完整的字節(8 位)來表示256 個不同字符。

自從ANSI 成為Windows 中默認的字符集,所有的瀏覽器都支持ANSI。

如需深入了解ANSI,請查看完整的ANSI參考手冊


在HTML 4 中:ISO-8859-1

由於大多數國家使用ASCII 以外的字符,在HTML 2.0 標準中,默認的字符編碼更改為ISO-8859-1。

ISO-8859-1 是ASCII 的擴展,它加入了國際字符。 與ANSI 一樣,它使用一個完整的字節(8 位)來表示256 個不同字符。

Note 當瀏覽器在網頁中檢測到ISO-8859-1 時,通常默認為ANSI,因為除了ANSI 有32 個額外的字符這一點,其他方面ANSI 基本等同於ISO-8859-1。

如果HTML 4 網頁使用了不同於ISO-8859-1 的字符集,則需要在<meta> 標籤中指定,如下所示:

實例

<meta http-equiv="Content-Type" content="text/html;charset=ISO-8859-8">

Note

HTML5 中默認的字符集是UTF-8。
所有的HTML 4 處理器都支持UTF-8,所有的HTML5 和XML 處理器都支持UTF-8 和UTF-16。

如需深入了解ISO-8859-1,請查看完整的ISO-8859-1參考手冊


在HTML5 中:Unicode(UTF-8)

由於以上所列的字符集是有限的,在多語言環境中是不兼容的,所以Unicode 聯盟(Unicode Consortium)開發了Unicode 標準(Unicode Standard)。

Unicode 標準覆蓋了(幾乎)所有的字符、標點符號和符號。

Unicode 使文本的處理、存儲和運輸,獨立於平台和語言。

HTML5中默認的字符編碼是UTF-8。

如需深入了解Unicode(UTF-8),請查看完整的Unicode參考手冊