UnicodeEncodeError:'ascii'编解码器无法在位置 3 编码字符 u'\ufffd':序数不在范围内(128)[重复]

Posted

技术标签:

【中文标题】UnicodeEncodeError:\'ascii\'编解码器无法在位置 3 编码字符 u\'\\ufffd\':序数不在范围内(128)[重复]【英文标题】:UnicodeEncodeError: 'ascii' codec can't encode character u'\ufffd' in position 3: ordinal not in range(128) [duplicate]UnicodeEncodeError:'ascii'编解码器无法在位置 3 编码字符 u'\ufffd':序数不在范围内(128)[重复] 【发布时间】:2016-10-06 16:07:15 【问题描述】:

我收到编码错误:

UnicodeEncodeError: 'ascii' codec can't encode character u'\ufffd' in position 3: ordinal not in range(128)

在以下python(pyspark)代码中,其中row是数据框行:

def rowToLine(row):
  line = str(row[0]).strip()
  columnNum = 44
  for k in xrange(1, columnNum):
    line = line + "\t"
    line = line + str(row[k]).strip()  # encoding error here
  return line

我也尝试了下面的加入:

def rowToLine(row):
  s = "\t"
  return s.join(row)

但是该行的某些值是 int,所以我得到了错误:

TypeError: sequence item 19: expected string or Unicode, int found

有谁知道如何解决这个问题?谢谢!

【问题讨论】:

@Keven,我调查了你提到的问题,但我不清楚如何在不使用 str 的情况下将 row[k] 转换为字符串。有什么建议吗? 没有足够的上下文来说明。你想输出 UTF-8 吗? ISO-8859-1?你的数据一开始是文本的吗? 旁注:您想使用str.join()。它比你现在使用的代码有更好的性能。 "\t".join([ x.encode("utf-8") if isinstance(x, basestring) else x for x in row]) 使用列表组合比使用生成器表达式更快,无论如何都会构建列表,因此在这里使用生成器根本没有优势 【参考方案1】:

感谢大家的建议!

我基本上采用了 Padraic Cunningham 的想法并进行了一些修改来处理 int 情况。下面的代码有效。

def rowToLine(row):
  s = "\t"
  return s.join( x.encode("utf-8") if isinstance(x, basestring) else str(x).encode("utf-8") for x in row)

【讨论】:

以上是关于UnicodeEncodeError:'ascii'编解码器无法在位置 3 编码字符 u'\ufffd':序数不在范围内(128)[重复]的主要内容,如果未能解决你的问题,请参考以下文章

UnicodeEncodeError: 'ascii' 编解码器无法编码字符 u'\u2026'

UnicodeEncodeError: 'ascii' 编解码器无法编码字符 u'\u2013'

UnicodeEncodeError:'ascii'编解码器无法对特殊名称的字符进行编码[重复]

UnicodeEncodeError:'ascii' 编解码器无法在位置 0 编码字符 u'\xef':序数不在范围内(128)

UnicodeEncodeError:'ascii'编解码器无法在位置 3 编码字符 u'\ufffd':序数不在范围内(128)[重复]

UnicodeEncodeError:“ascii”编解码器无法在位置 126 编码字符 u'\u2019':序数不在范围内(128)