转载python解决文本乱码问题及文本二进制读取后的处理

Posted workingdiary

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了转载python解决文本乱码问题及文本二进制读取后的处理相关的知识,希望对你有一定的参考价值。

转自:https://blog.csdn.net/u011316258/article/details/50450079

 

python解决文本乱码问题及文本二进制读取后的处理

吲哚乙酸

 

当文本中含有很多各种各样的字符时,此时读取文件如果还用
fr1 = open("filename","r")
的r模式,遇到ascii码表识别不了的会报错,如:UnicodeEncodeError: ‘gbk’ codec can’t encode character
此时可以用二进制读取文件换成

fr1 = open("filename","rb")
二进制一般都可以顺利的读取,


读取后

r1 = fr1.readline()
是二进制制类型的b’。。。’的,无法对此解析,
所以可用decode( )函数来解码,

r1_to_str = r1.decode(\'gbk\')
或者,gb18030,utf-8,这时就可以解析了


2. 如果这时,不论是,gbk还是gb18030都解析不了的时候,
还是会报错UnicodeEncodeError: ‘gbk’ codec can’t encode character ,
而这时候字符对文本分析可能又没有什么用的时候,我们可以忽略该字符,
可用

r1_to_str = r1.decode(\'gbk\',\'ignore\')
或者’ignore’换成’replace’
便可以将文本转化成字符串了。
————————————————
版权声明:本文为CSDN博主「吲哚乙酸」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
原文链接:https://blog.csdn.net/u011316258/article/details/50450079

以上是关于转载python解决文本乱码问题及文本二进制读取后的处理的主要内容,如果未能解决你的问题,请参考以下文章

C# 怎么处理Word文件的乱码

python获取百度贴吧乱码问题?

[转载]Sublime Text 2支持GB2312和GBK,解决中文显示乱码问题

pythonpython读写文件,都不乱码

为啥C语言输出文件内容乱码

java 逐行读取txt文本如何解决中文乱码