Windows 对其 Unicode 数据类型使用啥 Unicode 编码（UTF-8、UTF-16 等）？

Posted 2023-02-22

技术标签:

【中文标题】Windows 对其 Unicode 数据类型使用啥 Unicode 编码（UTF-8、UTF-16 等）？【英文标题】：What unicode encoding (UTF-8, UTF-16, other) does Windows use for its Unicode data types?Windows 对其 Unicode 数据类型使用什么 Unicode 编码（UTF-8、UTF-16 等）？ 【发布时间】：2012-11-21 18:40:09 【问题描述】：

相同的 Unicode（标准化）table 有不同的编码。例如对于 UTF-8 编码 A corresponds to 0x0041 但对于 UTF-16 编码，相同的 A 是 represented as 0xfeff0041。

从brilliant article 我了解到，当我使用 C++ 为 Windows 平台编程并处理 Unicode 时，我应该知道它以 2 个字节表示。但它没有说明任何关于编码的内容。（即使它说 x86 CPU 是 little-endian，所以我知道这两个字节是如何存储在内存中的。）但我也应该知道 Unicode 的编码，以便我有关于符号如何存储在内存中的完整信息。 C++/Windows 程序员有固定的 Unicode 编码吗？

【问题讨论】：

A 在 UTF-16 中不表示为 0xfeff0041。它是 UTF-8 中的 0x41 和 UTF-16 中的 0x0041。 fileformat.info/info/charset/UTF-16/list.htm 这是我的信息来源，正如我已经提到的。那么它是如何存储的呢？您的来源有误。所有这些值前面都不应该有feff。 0xFEFF 用作 UTF-16 BOM。 @Narek 0xfeff 是字节顺序标记。该表只是告诉您以下两个字节的顺序。如果您转到the page for A，您将看到 UTF-8 编码为 0x41，UTF-16 编码为 0x0041。 UTF-8 根据值使用 1、2、3 或 4 个字节对 Unicode 代码点进行编码。 UTF-16 使用 2 或 4 个字节对 Unicode 代码点进行编码，具体取决于值。只有 ASCII 代码点 (0x00-0x7F) 在 UTF-8 和 UTF-16 编码中具有相同的值。否则，代码点 0x80 和更高版本的编码方式不同。 【参考方案1】：

存储在 Windows 内存中的值始终为 UTF-16 little-endian。但这不是您在谈论的内容-您正在查看文件内容。 Windows 本身并没有指定文件的编码，而是将其留给各个应用程序。

您在文件开头看到的 0xfe 0xff 是Byte Order Mark or BOM。它不仅表明该文件很可能是 Unicode，而且还告诉您 Unicode 编码的变体。

0xfe 0xff      UTF-16 big-endian
0xff 0xfe      UTF-16 little-endian
0xef 0xbb 0xbf UTF-8

除非您知道它是如何编写的，否则应该假定没有 BOM 的文件是 8 位字符。这仍然不能告诉您它是 UTF-8 还是其他 Windows 字符编码，您只需要猜测即可。

您可以使用记事本作为示例来说明如何完成此操作。如果文件有 BOM，则记事本会读取它并适当地处理内容。否则，您必须使用“编码”下拉列表自己指定编码。

编辑：Windows 文档没有更具体地说明编码的原因是 Windows 是 Unicode 的早期采用者，当时有 only one encoding of 16 bits per code point。当 65536 个代码点被确定为不足时，发明了代理对作为扩展范围的一种方式，UTF-16 诞生了。微软已经在使用 Unicode 来指代他们的编码并且从未改变过。

【讨论】：

“存储在 Windows 内存中的值始终是 UTF-16 little-endian。” 这就是我需要的！非常感谢！只是我想知道它是否有记录？ @Narek，这是一个参考：msdn.microsoft.com/en-us/library/windows/desktop/…。引用：“通常，Windows 应用程序应在内部使用 UTF-16，仅将其转换为必须使用另一种格式的接口上的“薄层”的一部分。”它是 little-endian 的事实不是 Windows 指定的，而是它是一个 little-endian Intel 处理器的事实。谢谢马克，真的很有帮助！ @RemyLebeau，这篇文章提出了记事本猜测的情况，以及在找不到 BOM 时可以预期的情况。我的建议是不要猜测，而是让用户决定，记事本（至少在 Win7 中）也为您提供了该选项。再一次，为了狡辩，存储在内存中的 Windows 的值总是 UTF-16 little endian 是不正确的。您可以在任何编码、内存、Windows 应用程序中存储您想要的任何值。由每个访问该内存的程序决定如何处理它。许多 Windows API 函数使用 UTF-16，但这只是一种 API。

以上是关于Windows 对其 Unicode 数据类型使用啥 Unicode 编码（UTF-8、UTF-16 等）？的主要内容，如果未能解决你的问题，请参考以下文章