ชุดอักขระ HTML
ได้อย่างถูกต้องแสดงหน้าเว็บ HTML เบราว์เซอร์จะต้องรู้ว่าตัวติดตั้งเพื่อนำมาใช้ (การเข้ารหัสอักขระ)
ชุดอักขระ HTML
ใน HTML, สิ่งที่เป็นรหัสตัวอักษรที่ถูกต้องคืออะไร?
HTML5 เข้ารหัสอักขระเริ่มต้นเป็น UTF-8
นี้ไม่ได้เป็นอย่างนั้นเสมอ การเข้ารหัสเครือข่ายของตัวละครในช่วงต้นเป็นรหัส ASCII
ต่อมาจาก HTML 2.0 เพื่อ HTML 4.01, ISO-8859-1 ถูกระบุว่าเป็นมาตรฐาน
กับการเกิดของ HTML5 และ XML ให้ UTF-8 มาถึงที่สุดในการแก้ปัญหามากการเข้ารหัสตัวอักษร
ต่อไปนี้เป็นภาพรวมคร่าวๆของมาตรฐานการเข้ารหัสอักขระ
ในการเริ่มต้น: ASCII
ข้อมูลคอมพิวเตอร์ (หมายเลข, ข้อความ, รูปภาพ) ในอุตสาหกรรมอิเล็กทรอนิกส์เป็นไบนารีที่ 1 และ 0 (01000101) สำหรับการจัดเก็บ
เพื่อที่จะควบคุมการจัดเก็บข้อมูลของตัวอักษรและตัวเลขที่สร้างขึ้น ASCII (ชื่อเต็มของรหัสมาตรฐานอเมริกันสำหรับการแลกเปลี่ยนข้อมูล) มันถูกกำหนดให้เป็นตัวละครแต่ละตัวจะถูกเก็บไว้กับการสนับสนุนไบนารีที่ไม่ซ้ำกันเจ็ดหลัก 0-9, บน / ล่างตัวอักษรกรณีของตัวอักษร (az, AZ) และบางตัวอักษรพิเศษเช่น $ + - () @ <>
ตั้งแต่ ASCII ใช้ไบต์ (7 แสดงให้เห็นถึงตัวละครที่มีความเท่าเทียมกันบ่งบอกถึงการควบคุมการส่ง) ดังนั้นจึงสามารถเป็นตัวแทนของ 128 ตัวอักษรที่แตกต่างกัน มี 32 ของตัวละครเหล่านี้จะถูกสงวนไว้สำหรับใช้เป็นเพื่อการควบคุมอื่น ๆ
ASCII อุปสรรคที่ใหญ่ที่สุดก็คือว่ามันไม่รวมตัวอักษรที่ไม่ใช่ภาษาอังกฤษ
ASCII ยังคงอยู่ในการใช้อย่างแพร่หลายในวันนี้โดยเฉพาะอย่างยิ่งในระบบคอมพิวเตอร์ขนาดใหญ่
สำหรับความเข้าใจใน ASCII โปรดดู คู่มืออ้างอิง ASCII เต็ม
ใน Windows: ANSI
ANSI (ยังเป็นที่รู้จักกันในนามของ Windows 1252) เป็น Windows 95 และ Windows ระบบก่อนที่จะมีชุดอักขระเริ่มต้น
ANSI ASCII เป็นส่วนขยายก็เข้าร่วมกับตัวละครต่างประเทศ มันใช้ทั้งไบต์ (8 บิต) เพื่อเป็นตัวแทนของ 256 ตัวอักษรที่แตกต่างกัน
นับตั้งแต่ได้เป็นตัวละครของ Windows ANSI ตั้งค่าเริ่มต้นเบราว์เซอร์ที่สนับสนุน ANSI
เพื่อความเข้าใจในเชิงลึกของ ANSI โปรดดู คู่มืออ้างอิงเต็ม ANSI
ใน HTML 4: ISO-8859-1
เนื่องจากประเทศส่วนใหญ่ใช้ตัวละครอื่น ๆ กว่า ASCII มาตรฐาน HTML 2.0 เปลี่ยนตัวอักษรเริ่มต้นการเข้ารหัส ISO-8859-1
ISO-8859-1 ขยาย ASCII ก็เข้าร่วมกับตัวละครต่างประเทศ และ ANSI จะใช้ไบต์ทั้งหมด (8 บิต) เพื่อเป็นตัวแทนของ 256 ตัวอักษรที่แตกต่างกัน
เมื่อตรวจพบเบราว์เซอร์มาตรฐาน ISO-8859-1 ในหน้ามักจะเริ่มต้นคือ ANSI เพราะนอกจากจะ ANSI 32 ตัวอักษรพิเศษที่ด้านอื่น ๆ ของ ANSI มากเทียบเท่ามาตรฐาน ISO-8859-1 |
หาก HTML 4 หน้าใช้ตัวอักษรที่แตกต่างกันการตั้งค่า ISO-8859-1, คุณจะต้องระบุใน <meta> แท็กดังต่อไปนี้:
ตัวอย่าง
HTML5 ชุดอักขระเริ่มต้นเป็น UTF-8 |
เพื่อความเข้าใจในเชิงลึกของ ISO-8859-1 โปรดดู คู่มือการใช้งานเต็มรูปแบบอ้างอิงมาตรฐาน ISO-8859-1
ใน HTML5: Unicode (UTF-8)
เพราะชุดตัวอักษรที่ระบุไว้ข้างต้นจะถูก จำกัด ในสภาพแวดล้อมที่พูดได้หลายภาษาจะไม่เข้ากันดังนั้น Unicode Consortium (Unicode Consortium) พัฒนามาตรฐาน Unicode (มาตรฐาน Unicode)
Unicode ครอบคลุมมาตรฐาน (เกือบ) ทุกตัวอักษรเครื่องหมายวรรคตอนและสัญลักษณ์
Unicode ช่วยให้การประมวลผลการจัดเก็บและการขนส่งของข้อความและภาษาแพลตฟอร์ม
HTML5 เข้ารหัสอักขระเริ่มต้นเป็น UTF-8
เพื่อความเข้าใจในเชิงลึกของ Unicode (UTF-8) โปรดดู คู่มืออ้างอิงที่สมบูรณ์ Unicode