python2编码问题

Posted 2020-10-30 chease

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了python2编码问题相关的知识，希望对你有一定的参考价值。

https://www.cnblogs.com/litaozijin/p/6416133.html

https://www.cnblogs.com/fnng/p/5008884.html

一、python2的编码

Python2.7中调用print打印var 变量时，操作系统会对var做一定的字符处理：如果var是str类型的变量，则直接将var变量交付给终端进行显示；如果var变量是unicode类型，则操作系统首先将var编码成str类型的对象（编码格式取决于stdout的编码格式），然后再交由终端进行显示。在终端显示时，如果str类型的变量的编码方式和终端设置的编码方式不一致，很可能会出现乱码问题。

str和unicode 转换: str -> decode(‘the_coding_of_str‘) -> unicode unicode -> encode(‘the_coding_you_want‘) -> str

注意：python3字符串默认都是以unicode编码的，print打印时，变量只接受unicode类型，否则不能正常打印，这与python2不同。

https://blog.csdn.net/yanghuan313/article/details/63262477

什么叫解码（decode）?

对应的，解码就是将字节序列按照编码规则（如UTF-8、GB18030)解释成unicode形式。

这里写图片描述

这里或许又会有疑问，编码解码都是十六进制，那中文字符咋显示的？
这又要结合你的环境了。看完我上面推荐的文章，你就会明白，Unicode只是一种标准，而具体的编码才是实现方式。有了正确的Unicode编码，仅仅代表你有了正确的英文文献，想翻译成中文，还得再转换一次。而这一次转换，是你的环境帮你完成。举个例子，你打开一个文档，发现是乱码，多半是文本编辑器的解码方式有问题，换个解码规则就好了。

https://www.cnblogs.com/575dsj/p/7112767.html

二、Python2处理中文字符串技巧: 在对中文字符串处理时(split，str[i]等)用unicode编码，在print时或其它输出时显式指定指定编码。

#最终以unicode编码
def pai_load_sentences(samples, is_lower, is_zeros):
    sentences = []
    #count = 0
    for line in samples:
        line = line.decode(\'utf-8\')
        print(\'line: \' + line.encode(\'utf8\'))
        if not isf.line_format_check(line) :
            continue
        r_list = isf.pai_line_format(line)
        if len(r_list) == 0:
            continue
        sentence = isf.pai_load_sentences(r_list, is_lower, is_zeros)
        if len(sentence) > 0:
            sentences.append(sentence)
    #print(\'len(sentences)=\', len(sentences))
    return sentences

三、Json编码

使用json.dumps()来将待中文的字典数据转换为json字符串时，有时会遇到中文乱码问题，这是因为json.dumps 序列化时默认使用的ascii编码，想输出真正的中文需要指定ensure_ascii=False：更深入分析，是应为dJSON object 不是单纯的unicode实现，而是包含了混合的unicode编码以及已经用utf-8编码之后的字符串。

json_str = json.dumps(dict, ensure_ascii=False)

参考：https://blog.csdn.net/weixin_40612082/article/details/90115045

以上是关于python2编码问题的主要内容，如果未能解决你的问题，请参考以下文章