ISO-8859-1 首次亮相后,Unicode 联盟重新组建,致力于开发更通用的可移动字符编码标准。
UTF-8(Unicode 转换-8 位)是目前网络上使用最广泛的字符编码格式,因为它是 Unicode 中的一种映射方法。Web 超文本应用技术工作组 (Web Hypertext Application Technology Working Group) 宣布 UTF-8 是网站内容的强制性要求,该工作组是一个由对发展 HTML 标准和相关技术感兴趣的人组成的社区。
UTF-8 的设计目标是与 ASCII 完全向后兼容。
为什么字符编码很重要?
因此,很明显,每个字符集都使用唯一的标识码表 电话号码数据 来向用户呈现特定字符。如果您使用 ISO-8859-1 字符集编辑文档,然后将该文档保存为 UTF-8 编码文档,而没有声明内容是 UTF-8,则特殊字符和业务符号将无法读取。
因此网站可以包含以 ISO-8859-1、Windows-1252 或任何其他类型编码编码的页面。浏览器应根据服务器未报告的字符编码格式正确呈现这些字符。
然而,如果在呈现页面时没有正确声明字符集,则 Web 服务器的默认设置通常是回退到没有任何特定字符编码格式(通常是 ASCII)的状态。
这会强制您的浏览器或移动设备确定页面的正确字符编码类型。根据 W3C 采用的 WHATWG 规范,最典型的默认回退是 UTF-8。但是,某些浏览器会回退到 ASCII。
字符编码技巧和最佳实践
为了确保您的用户始终在 HTML 制作页面上看到正确的内容,请确保:
- 内容使用 UTF-8 保存并编码
- 使用元标记声明页面中的编码类型
- 您的服务器正在提供正确的数据与自然接触并通过恢复和再野化生 (即使您页面上的数据已正确采用 UTF-8 编码并在页面上声明,您的服务器也可能使用 HTTP 标头为页面提供服务,而最终用户可能会以不同的编码读取该标头)
- HTTP Content-Type 标头指定了 UTF-8 作为编码类型
遵循这些规范将很容易将网站翻译成各种语言,而无需在当今网络上使用的多渠道媒体上解码并重新编码为其他字符编码。
字符编码和网站本地化
虽然字符编码对于网站本地化至关重要,但它实际上是国际化过程的一部分。国际化通常缩写为 i18n,它使应用程序能够输入、处理和输出国际文本。对于多语言网站,它确保网页成功本地化为目标语言。
在 20 世纪 90 年代,国际化支持意味着应用程 消費者數據 序可以以不同的字符集和编码输入、存储和输出数据。例如,讲英语的用户可以使用 Latin-1 与您交谈,而讲俄语的用户可以使用 KOI8-R 与您交谈。
然而,该系统存在一些问题,例如无法在同一页面上显示来自两个不同用户组的数据。此外,每条数据都需要用其存储的字符集进行标记。这意味着必须使用正确的字符集输出 HTML 和网页上的所有内容。