Latest web development tutorials

HTML Character Set

Untuk benar menampilkan halaman HTML, browser harus tahu karakter set yang akan digunakan (pengkodean karakter).


HTML Character Set

Dalam HTML, apa kode karakter yang benar adalah?

HTML5 karakter default encoding adalah UTF-8.

Hal ini tidak selalu terjadi. Awal karakter encoding jaringan adalah kode ASCII.

Kemudian, dari HTML 2.0 ke HTML 4.01, ISO-8859-1 diidentifikasi sebagai standar.

Dengan munculnya HTML5 dan XML, UTF-8 telah tiba, memecahkan banyak masalah pengkodean karakter.

Berikut ini adalah gambaran singkat dari standar pengkodean karakter.


Pada awalnya: ASCII

informasi komputer (nomor, teks, gambar) dalam elektronik adalah biner 1 dan 0 (01000101) untuk menyimpan.

Dalam rangka untuk mengatur penyimpanan karakter alfanumerik, menciptakan ASCII (nama lengkap dari American Standard Kode untuk Informasi Interchange). Hal ini didefinisikan sebagai setiap karakter disimpan dengan tujuh digit dukungan biner yang unik 0-9, atas / huruf kecil alfabet (az, AZ), dan beberapa karakter khusus, seperti $ + - () @ <>.

Sejak ASCII menggunakan byte (7 mewakili karakter, paritas mengindikasikan kontrol transmisi), sehingga hanya dapat mewakili 128 karakter yang berbeda. Ada 32 karakter ini dicadangkan untuk digunakan sebagai keperluan kontrol lainnya.

ASCII Kelemahan terbesar adalah bahwa hal itu tidak termasuk huruf non-Inggris.

ASCII masih digunakan secara luas saat ini, terutama dalam sistem komputer yang besar.

Untuk wawasan ASCII, silakan lihat penuh referensi manual ASCII .


Pada Windows: ANSI

ANSI (juga dikenal sebagai Windows-1252), adalah Windows 95 dan Windows sistem sebelum set karakter default.

ANSI ASCII merupakan perpanjangan, itu bergabung dengan karakter internasional. Ini menggunakan seluruh byte (8 bit) untuk mewakili 256 karakter yang berbeda.

Sejak menjadi karakter Windows ANSI menetapkan default, semua browser mendukung ANSI.

Untuk pemahaman mendalam dari ANSI, silakan lihat penuh pengguna ANSI referensi .


Dalam HTML 4 adalah: ISO-8859-1

Karena sebagian besar negara menggunakan karakter selain ASCII, standar HTML 2.0, mengubah karakter default encoding ISO-8859-1.

ISO-8859-1 diperpanjang ASCII, itu bergabung dengan karakter internasional. Dan ANSI, menggunakan seluruh byte (8 bit) untuk mewakili 256 karakter yang berbeda.

catatan Ketika browser mendeteksi ISO-8859-1 di halaman, biasanya defaultnya adalah ANSI, karena selain ANSI 32 karakter tambahan bahwa aspek-aspek lain dari ANSI substansial setara dengan ISO-8859-1.

Jika HTML 4 halaman menggunakan karakter yang berbeda set ISO-8859-1, Anda perlu menentukan dalam tag <meta>, sebagai berikut:

contoh

<meta http-equiv="Content-Type" content="text/html;charset=ISO-8859-8">

catatan

HTML5 karakter default set UTF-8.
Semua dukungan HTML 4 prosesor UTF-8, semua HTML5 dan prosesor XML dukungan UTF-8 dan UTF-16.

Untuk pemahaman mendalam dari ISO-8859-1, silakan lihat Manual Referensi penuh ISO-8859-1 .


Dalam HTML5: Unicode (UTF-8)

Karena karakter set yang tercantum di atas terbatas, dalam lingkungan multibahasa tidak kompatibel, sehingga Konsorsium Unicode (Unicode Consortium) mengembangkan standar Unicode (Unicode Standard).

Unicode mencakup standar (hampir) semua karakter, tanda baca dan simbol.

Unicode memungkinkan pengolahan, penyimpanan dan transportasi dari teks, dan bahasa platform-independen.

HTML5 karakter default encoding adalah UTF-8.

Untuk pemahaman mendalam dari Unicode (UTF-8), silakan lihat lengkap referensi manual Unicode .