UnicodeEncodeError: 'ascii' codec can't encode characters in
Posted
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了UnicodeEncodeError: 'ascii' codec can't encode characters in相关的知识,希望对你有一定的参考价值。
做爬虫向文件写入时,出现写入错误UnicodeEncodeError: ‘ascii‘ codec can‘t encode characters in .............
问题产生的原因:写入的部分内容不能用ASCII编码。
因为默认的编码格式是ascii,所以
百度上许多解决方案即是
import sys
reload(sys)
sys.setdefaultencoding(‘utf-8‘)
即修改默认编码为utf-8
但之后再GUI上操作其他指令时,会有显示不正常的问题
借用博主
chaoshengmingyue的文章
《《《《《《《《通常大多数人执行reload(sys)这条语句其实仅仅是为了能够修改Python的默认字符集,也就是能够调用sys.setdefaultencoding()。但是如果在IDLE中执行reload(sys),就会导致接下来无法正常执行任何命令。
起初遇到这个问题也是束手无策,后来无意间在stackoverflow上看到有人说到了这个问题。原来是因为IDLE作为一个GUI Shell环境,在启动初始化过程中,会设置特定的标准输入、标准输出和标准错误输出,使得输入和输出都在IDLE的GUI Shell中,可以在IDLE中通过如下方式查看:
>>> import sys
>>> print sys.stdin
<idlelib.PyShell.PseudoInputFile object at 0x00000000027AF2E8>
>>> print sys.stdout
<idlelib.PyShell.PseudoOutputFile object at 0x00000000027AF320>
>>> print sys.stderr
<idlelib.PyShell.PseudoOutputFile object at 0x00000000027AF358>
>>>
而如果手动执行了reload(sys)以后,sys模块的这三个变量将会被重置,导致输出无法显示在IDLE。所以解决方案很简单,只需要在reload之前把这三个变量都复制一份,reload之后再恢复回来就行了:
>>> stdi,stdo,stde=sys.stdin,sys.stdout,sys.stderr
>>> reload(sys)
>>> sys.stdin,sys.stdout,sys.stderr=stdi,stdo,stde
>>> print sys.stdout
<idlelib.PyShell.PseudoOutputFile object at 0x00000000027AF320>
>>>
细心的人可能会想到,reload(sys)之后,如果标准输入、标准输出和标准错误输出都不起作用了,那么relaod(sys)后面那一句sys.stdin,sys.stdout,sys.stderr=stdi,stdo,stde怎么能够执行呢?所以其实reload(sys)之后、恢复之前,标准输入还是可以正常工作的,可以通过如下代码来检验:
>>> reload(sys)
>>> sys.stdout=stdo
>>> print sys.stdin
<open file ‘<stdin>‘, mode ‘r‘ at 0x0000000001CAB030>
>>> print sys.stdout
<idlelib.PyShell.PseudoOutputFile object at 0x00000000027AF320>
>>> print sys.stderr
<open file ‘<stderr>‘, mode ‘w‘ at 0x0000000001CAB150>
>>>
所以问题就解决了,但是必须要强调:
千万不要轻易使用reload(sys),除非你完全清除这么做带来的结果!仅仅为了能够重新设定Python的默认编码就执行reload(sys)更是非常不明智的行为!
Python的设计者故意在Python初始化完成以后删除sys模块里面的setdefaultencoding()方法,就是为了不让在运行时随意更改Python默认编码,以免出现一些未知的问题。事实上,关于编码问题,完全有别的更可靠的方法解决。》》》》》》》》
那么最佳的解决方法是什么呢,就是借助codecs模块
f=codecs.open(‘file.txt‘,‘a‘,‘utf-8‘)
之后再写入就没有问题了!
以上是关于UnicodeEncodeError: 'ascii' codec can't encode characters in的主要内容,如果未能解决你的问题,请参考以下文章
UnicodeEncodeError: 'ascii' codec can't encode character u'u5929' in position 2(
UnicodeEncodeError: 'ascii' codec can't encode characters
UnicodeEncodeError: 'ascii' codec can't encode characters in
UnicodeEncodeError: 'gbk' codec can't encode character 'xbb' in position
UnicodeEncodeError: 'ascii' codec can't encode character...的解决方法
UnicodeEncodeError: 'gbk' codec can't encode character 'u25aa' in position 15: (