各种编码问题

Posted 啊嘞

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了各种编码问题相关的知识,希望对你有一定的参考价值。

UNICODE字符集和UTF系列编码

  • UNICODE是一个标准,他为每个字符规定了编号。
  • UTF系列编码是对UNICODE标准规定的编号进行编码,以便于传输或者存储。
  • 16位存不下UNICODE所有字符。只是中文都可以直接用UTF-16编码用2字节表示。

_UNICODE宏的作用

  • 主要是方便程序员维护代码,避免为UNICODE和ANSI写两套代码。

w_char和char

  • w_char存储中文字符,Windows在内存中用UTF-16编码表示。
  • char存储中文字符,Windows在内存中用GBK编码表示。

页表

  • 在中国,Windows默认页表为936,即GBK编码。
  • w_char中文字符直接输出到控制台是乱码,应为页表不对。

以上是关于各种编码问题的主要内容,如果未能解决你的问题,请参考以下文章

各种编码问题

tesseract编译各种 “锟斤拷” 等中文乱码 编译失败问题

解决各种tomcat中文乱码问题

解决pycharm的爬虫乱码问题(初步了解各种编码格式)

编码方式的编码方式

各种编码格式