令人心烦意乱的字符编码与转码

Posted 飞哥霸气

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了令人心烦意乱的字符编码与转码相关的知识,希望对你有一定的参考价值。

ASC-II码:英文1个字节(8 byte),不支持中文;

高大上的中国,扩展出自己的gbk、gb2312、gb2318等字符编码。 

由于各个国家都有自己的编码,于是就需要统一的编码形式用于国际流传,防止乱码,就有了万国码;

万国码:unicode(默认无论中文还是英文都是至少占用2个字节),为了解决占用字节变多,占用空间增倍的情况,又衍生了扩展集utf-8;

UTF-8:原有的ASC-II码中内容仍用1个字节,欧洲国家的字符用2个字节,汉字等其他的字符用3个字节

 


 

dncode: 解码到unicode,encode: 将unicode编码到其他格式(如,utf-8,gbk等)

日常中如果我们想要读取其他国家的代码时,先解码(decode)为万国码,再编码(encode)为我们适用的编码形式读取;

比如:GBK到uff-8,先将GBK(decode)到 unicode,再(encode)到utf-8;

 

以上是关于令人心烦意乱的字符编码与转码的主要内容,如果未能解决你的问题,请参考以下文章

在ASCII码字符编码中,啥字符无法显示或打印出来

在ASCII码字符编码中,啥字符无法显示或打印出来

python字符编码与转码

字符编码与转码

004-python基础-字符编码与转码

字符编码与转码