UnicodeEncodeError:'ascii' 编解码器无法在位置 0 编码字符 u'\xef':序数不在范围内(128)

Posted

技术标签:

【中文标题】UnicodeEncodeError:\'ascii\' 编解码器无法在位置 0 编码字符 u\'\\xef\':序数不在范围内(128)【英文标题】:UnicodeEncodeError: 'ascii' codec can't encode character u'\xef' in position 0: ordinal not in range(128)UnicodeEncodeError:'ascii' 编解码器无法在位置 0 编码字符 u'\xef':序数不在范围内(128) 【发布时间】:2011-07-05 17:19:19 【问题描述】:

我想解析我的 XML 文档。所以我将我的 XML 文档存储如下

class XMLdocs(db.Expando):  
   id = db.IntegerProperty()    
   name=db.StringProperty()  
   content=db.BlobProperty()  

现在我的下面是我的代码

parser = make_parser()     
curHandler = BasketBallHandler()  
parser.setContentHandler(curHandler)  
for q in XMLdocs.all():  
        parser.parse(StringIO.StringIO(q.content))

我遇到了错误

'ascii' codec can't encode character u'\xef' in position 0: ordinal not in range(128)
Traceback (most recent call last):  
  File "/base/python_runtime/python_lib/versions/1/google/appengine/ext/webapp/__init__.py", line 517, in __call__
    handler.post(*groups)   
  File "/base/data/home/apps/parsepython/1.348669006354245654/mapreduce/base_handler.py", line 59, in post
    self.handle()   
  File "/base/data/home/apps/parsepython/1.348669006354245654/mapreduce/handlers.py", line 168, in handle
    scan_aborted = not self.process_entity(entity, ctx)   
  File "/base/data/home/apps/parsepython/1.348669006354245654/mapreduce/handlers.py", line 233, in process_entity
    handler(entity)   
  File "/base/data/home/apps/parsepython/1.348669006354245654/parseXML.py", line 71, in process
    parser.parse(StringIO.StringIO(q.content))   
  File "/base/python_runtime/python_dist/lib/python2.5/xml/sax/expatreader.py", line 107, in parse
    xmlreader.IncrementalParser.parse(self, source)   
  File "/base/python_runtime/python_dist/lib/python2.5/xml/sax/xmlreader.py", line 123, in parse
    self.feed(buffer)  
  File "/base/python_runtime/python_dist/lib/python2.5/xml/sax/expatreader.py", line 207, in feed
    self._parser.Parse(data, isFinal)   
  File "/base/data/home/apps/parsepython/1.348669006354245654/parseXML.py", line 136, in characters   
    print ch   
UnicodeEncodeError: 'ascii' codec can't encode character u'\xef' in position 0: ordinal not in range(128)   

【问题讨论】:

您的堆栈跟踪显示您的执行代码与您粘贴的不同 - 并且您正在使用 print。不要在 WSGI 应用程序中使用打印! 【参考方案1】:

解决此问题的简单方法是将默认编码设置为 utf8。下面是一个例子

import sys

reload(sys)
sys.setdefaultencoding('utf8')

【讨论】:

不要这样做。 why it breaks code 你能解释一下原因吗? 我的评论中有一个链接可以解释它。本质上,库希望 ascii 的默认值保持默认值。这就是为什么如果没有 reload 技巧,setdefaultencoding 通常无法使用。【参考方案2】:

只需将.encode('utf-8') 放在对象末尾即可在最新版本的 Python 中完成这项工作。

【讨论】:

“最新版本的 Python”是什么意思?只有3.x,还是2.7 Python 2.7 显然是最近才出现的,因为它仍在广泛使用中。 在 Python 2.7 上为我工作【参考方案3】:

您似乎遇到了 UTF-8 字节顺序标记 (BOM)。尝试使用这个带有 BOM 提取的 unicode 字符串:

import codecs

content = unicode(q.content.strip(codecs.BOM_UTF8), 'utf-8')
parser.parse(StringIO.StringIO(content))

我使用strip 而不是lstrip,因为在您的情况下,您有多次出现BOM,可能是由于连接的文件内容。

【讨论】:

我已经完全按照答案中提到的那样做,但是得到了上述错误,首先它在问题提到的位置 0 处给了我,现在它在上一条评论中提到的位置 5785 处给了我 我建议转换任何字符串s,这会产生s = unicode(s.strip(codecs.BOM_UTF8), 'utf-8') 的错误。 s 指的是您的字符串的名称。 尝试用strip替换lstrip 我理解你的建议,我也详细做了同样的错误:ascii' codec can't encode character u'\xef' in position 5785: ordinal not in range(128)跨度> 在打印过程中将unicode转换为字符串时出现编码错误。它不包含 UTF-8 BOM,无法解码回 unicode,错误是因为它包含非 ASCII 字符 - 删除它们会破坏内容和 BOM只是其中之一。【参考方案4】:

这对我有用:

from django.utils.encoding import smart_str
content = smart_str(content)

【讨论】:

【参考方案5】:

这个问题的实际最佳答案取决于您的环境,特别是您的终端期望的编码。

最快的单行解决方案是将您打印的所有内容编码为您的终端几乎可以肯定接受的 ASCII,同时丢弃您无法打印的字符:

print ch #fails
print ch.encode('ascii', 'ignore')

更好的解决方案是将终端的编码更改为 utf-8,并在打印前将所有内容编码为 utf-8。您应该养成每次打印或读取字符串时考虑 unicode 编码的习惯。

【讨论】:

就我而言,我正在将 twitter 流打印到终端,并且工作正常。然后我想将程序输出重定向到一个文件,我开始得到'ascii'编解码器无法编码位置 32-36 中的字符。后来,就像在这个答案中一样,我使用了 print tweet.encode("utf-8",ignore) ,一切都奏效了。【参考方案6】:

问题是您正在尝试将 unicode 字符打印到可能的非 unicode 终端。在打印之前,您需要使用 'replace 选项对其进行编码,例如print ch.encode(sys.stdout.encoding, 'replace').

【讨论】:

打印不是必需的,我遇到错误的主要语句是解析语句 @Mahesh:是你的代码导致了问题,在 parseXML.py 的第 136 行——要么自己修复它,要么向我们展示这部分代码,以便我们为你提供帮助。【参考方案7】:

根据您的回溯,问题是parseXML.py 第 136 行的 print 语句。不幸的是,您认为不适合发布您的代码的那部分,但我猜它只是用于调试。如果您将其更改为:

print repr(ch)

那么您至少应该看看您要打印的内容。

【讨论】:

-1 用于解决明显的 unicode 编码问题的非 unicode 解决方案。 unicode编码问题出在print语句上。是的,可能还有其他问题,但修复打印不崩溃是当务之急。

以上是关于UnicodeEncodeError:'ascii' 编解码器无法在位置 0 编码字符 u'\xef':序数不在范围内(128)的主要内容,如果未能解决你的问题,请参考以下文章

UnicodeEncodeError: 'ascii' 编解码器无法编码字符 u'\u2026'

UnicodeEncodeError: 'ascii' 编解码器无法编码字符 u'\u2013'

UnicodeEncodeError:'ascii'编解码器无法对特殊名称的字符进行编码[重复]

UnicodeEncodeError:'ascii' 编解码器无法在位置 0 编码字符 u'\xef':序数不在范围内(128)

UnicodeEncodeError:'ascii'编解码器无法在位置 3 编码字符 u'\ufffd':序数不在范围内(128)[重复]

UnicodeEncodeError:“ascii”编解码器无法在位置 126 编码字符 u'\u2019':序数不在范围内(128)