python2编码问题

Posted chease

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了python2编码问题相关的知识,希望对你有一定的参考价值。

https://www.cnblogs.com/litaozijin/p/6416133.html

https://www.cnblogs.com/fnng/p/5008884.html

一、python2的编码

Python2.7中调用print打印var 变量时,操作系统会对var做一定的字符处理:如果var是str类型的变量,则直接将var变量交付给终端进行显示;如果var变量是unicode类型,则操作系统首先将var编码成str类型的对象(编码格式取决于stdout的编码格式),然后再交由终端进行显示。在终端显示时,如果str类型的变量的编码方式和终端设置的编码方式不一致,很可能会出现乱码问题。

str和unicode 转换: str  -> decode(‘the_coding_of_str‘) -> unicode unicode -> encode(‘the_coding_you_want‘) -> str 

注意:python3字符串默认都是以unicode编码的,print打印时,变量只接受unicode类型,否则不能正常打印,这与python2不同。 

https://blog.csdn.net/yanghuan313/article/details/63262477

什么叫解码(decode)?

对应的,解码就是将字节序列按照编码规则(如UTF-8、GB18030)解释成unicode形式。

这里写图片描述

这里或许又会有疑问,编码解码都是十六进制,那中文字符咋显示的? 
这又要结合你的环境了。看完我上面推荐的文章,你就会明白,Unicode只是一种标准,而具体的编码才是实现方式。有了正确的Unicode编码,仅仅代表你有了正确的英文文献,想翻译成中文,还得再转换一次。而这一次转换,是你的环境帮你完成。举个例子,你打开一个文档,发现是乱码,多半是文本编辑器的解码方式有问题,换个解码规则就好了。

https://www.cnblogs.com/575dsj/p/7112767.html

 

 

二、Python2处理中文字符串技巧:  在对中文字符串处理时(split,str[i]等)用unicode编码,在print时或其它输出时显式指定指定编码。

 

#最终以unicode编码
def pai_load_sentences(samples, is_lower, is_zeros):
    sentences = []
    #count = 0
    for line in samples:
        line = line.decode(\'utf-8\')
        print(\'line: \' + line.encode(\'utf8\'))
        if not isf.line_format_check(line) :
            continue
        r_list = isf.pai_line_format(line)
        if len(r_list) == 0:
            continue
        sentence = isf.pai_load_sentences(r_list, is_lower, is_zeros)
        if len(sentence) > 0:
            sentences.append(sentence)
    #print(\'len(sentences)=\', len(sentences))
    return sentences

 

 

 

 

三、Json编码

使用json.dumps()来将待中文的字典数据转换为json字符串时,有时会遇到中文乱码问题,这是因为json.dumps 序列化时默认使用的ascii编码,想输出真正的中文需要指定ensure_ascii=False:更深入分析,是应为dJSON object 不是单纯的unicode实现,而是包含了混合的unicode编码以及已经用utf-8编码之后的字符串。

json_str = json.dumps(dict, ensure_ascii=False)

参考:https://blog.csdn.net/weixin_40612082/article/details/90115045

以上是关于python2编码问题的主要内容,如果未能解决你的问题,请参考以下文章

python2.7编码问题

对 python2 和 python3 使用相同的代码进行编码 + 加密 + 填充的问题

一篇文章助你理解Python2中字符串编码问题

python2.X烦人的编码

markdown 打字稿...编码说明,提示,作弊,指南,代码片段和教程文章

将 python2 字节/字符串编码转换为 python3