Python | 多种编码文件(中文)乱码问题解决

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Python | 多种编码文件(中文)乱码问题解决相关的知识,希望对你有一定的参考价值。

问题线索

 
  1. 1

    可以知道的是,文本文件的默认编码并不是utf8。

    我们打开一个文本文件,并点击另存为

    技术分享
  2. 2

    我们在新窗口的编码一栏看到默认编码是ANSI。先不管这个编码是什么编码,但是通过下拉列表我们知道,这种编码不是utf8。

    技术分享
    技术分享
    END

编码测试

 
  1. 1

    对于Python里面的中文显示,我们常常使用utf8和gbk的编码。对于这两种编码笔者就不介绍了,总之都是专门可以处理中文的编码方式啦。

    技术分享
  2. 2

    我们首先对文本文件测试了gbk解码。我们发现,此编码下文本文件内容可以正常显示,但是使用utf8解码,程序出错,抛出decodeError异常

    技术分享
  3. 3

    同样的,我们对Python脚本文件测试了utf8解码。我们发现,此编码下文本文件内容可以正常显示,但是使用gbk解码,中文部分出现乱码

    技术分享
  4. 4

    测试说明,对于文本文件需要使用gbk解码,而对于脚本文件需要utf8解码,也就是说,文本文件是gbk编码的,而脚本则是utf8

    END

解决法一:异常处理

 
  • 我们从上面的编码测试发现,文本文件在使用utf8解码时会抛出异常,所以我们在代码中可以做如下处理——也就是在异常抛出时采用gbk解码

    技术分享
  • 经过测试,发现程序可以满足两种文件正常显示

    技术分享
    END

解决法二:文件类型

 
  • 因为确定是这两种文件,所以可以直接判断文件类型选择对应解码了。经过测试,也成功了。

    技术分享
    技术分享
    END

终极解法:chardet

 
  1.  

    chardet模块可以检测字符编码,应该说是类似问题的终极解决。先安装一下

    技术分享
    技术分享
  2.  

    通过下面代码测试一下两种文件的编码。我们看到,通过chardet模块返回的是一个字典。字典的前一个元素是编码检查的概率,后一个是编码类型

    技术分享
    技术分享
  3.  

    我们看到,文本文件的编码方式是GB2312,而我们上面使用gbk的解码也是可以的,那是因为gb2312是gbk的一个子集(GBK/1、GBK/2是GB2312区域)

    技术分享
  4.  

    现在我们修改一下最终的代码,把这个编码问题解决掉~

    技术分享
  5.  

以上是关于Python | 多种编码文件(中文)乱码问题解决的主要内容,如果未能解决你的问题,请参考以下文章

SourceInsight解决中乱码问题,python脚本批量实现文件的编码转换

SourceInsight解决中乱码问题,python脚本批量实现文件的编码转换

求助!,python2处理utf-8编码的中文json.dumps后输出乱码问题,求大神帮忙解决下,谢谢!

PHPWAMP乱码一键解决,PHP乱码通用解决方案/网站乱码的多种原因分析

Curl之解决中文乱码

解决Python字典dict写入txt文件中文乱码问题