python的字符转换常见bug

Posted 2020-10-10

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了python的字符转换常见bug相关的知识，希望对你有一定的参考价值。

1.python把一个unicode字符串写入文件为什么会报错？

write方法的参数类型是str，str是二进制流（不包含编码信息），当你给出一个unicode对象时，会执行str函数转换成str类型再送给write方法。unicode转str包含一次编码，如不指定则默认使用ascii编码，而ascii编码集里汉字字符是没有对应的，所以报错。

正确做法是在代码里指定编码。比如在open里指定（fp= open(‘test.txt‘, ‘w‘, encoding=‘utf-8‘)），或者在write的时候手动把unicode对象通过encode方法指定编码产生str。就是说写成fp.write(s.encode(‘utf8‘))。注意unicode对象用encode是有意义的，str对象在py2里允许你对str对象使用encode，然而这是对指定了default encoding的情况下才有效的，因此不推荐新手对str直接encode。

2.Error：UnicodeEncodeError: ‘gbk’ codec can’t encode character u’\u200e’ in position 43: illegal multibyte sequence

原来出现’gbk’ codec can’t encode”的错误的根本原因是，对于前面的，不论是用

titleHtml.decode(“UTF-8”);

还是titleHtml.decode(“UTF-8”, ‘ignore’);

还是titleHtml.decode(“UTF-8”, ‘replace’);

都是可以得到正常的titleUni的Unicode字符的，然后对于此Unicode的字符，需要print出来的话，由于本地系统是Win7中的cmd，默认codepage是CP936，即GBK的编码，所以需要先将上述的Unicode的titleUni先编码为GBK，然后再在cmd中显示出来，然后由于titleUni中包含一些GBK中无法显示的字符，导致此时提示“’gbk’ codec can’t encode”的错误的。

对于此（类）问题：

(1)出现UnicodeEncodeError –> 说明是Unicode编码时候的问题；

(2) ‘gbk’ codec can’t encode character –> 说明是将Unicode字符编码为GBK时候出现的问题；

此时，往往最大的可能就是，本身Unicode类型的字符中，包含了一些无法转换为GBK编码的一些字符。

解决办法是：

方案1：

在对unicode字符编码时，添加ignore参数，忽略无法无法编码的字符，这样就可以正常编码为GBK了。

对应代码为：

gbkTypeStr = unicodeTypeStr.encode(“GBK“, ‘ignore’);

方案2：

或者，将其转换为GBK编码的超集GB18030 （即，GBK是GB18030的子集）：

gb18030TypeStr = unicodeTypeStr.encode(“GB18030“);