python2编码问题
Posted chease
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了python2编码问题相关的知识,希望对你有一定的参考价值。
https://www.cnblogs.com/litaozijin/p/6416133.html
https://www.cnblogs.com/fnng/p/5008884.html
一、python2的编码
Python2.7中调用print打印var 变量时,操作系统会对var做一定的字符处理:如果var是str类型的变量,则直接将var变量交付给终端进行显示;如果var变量是unicode类型,则操作系统首先将var编码成str类型的对象(编码格式取决于stdout的编码格式),然后再交由终端进行显示。在终端显示时,如果str类型的变量的编码方式和终端设置的编码方式不一致,很可能会出现乱码问题。
str和unicode 转换: str -> decode(‘the_coding_of_str‘) -> unicode unicode -> encode(‘the_coding_you_want‘) -> str
注意:python3字符串默认都是以unicode编码的,print打印时,变量只接受unicode类型,否则不能正常打印,这与python2不同。
https://blog.csdn.net/yanghuan313/article/details/63262477
什么叫解码(decode)?
对应的,解码就是将字节序列按照编码规则(如UTF-8、GB18030)解释成unicode形式。
这里或许又会有疑问,编码解码都是十六进制,那中文字符咋显示的?
这又要结合你的环境了。看完我上面推荐的文章,你就会明白,Unicode只是一种标准,而具体的编码才是实现方式。有了正确的Unicode编码,仅仅代表你有了正确的英文文献,想翻译成中文,还得再转换一次。而这一次转换,是你的环境帮你完成。举个例子,你打开一个文档,发现是乱码,多半是文本编辑器的解码方式有问题,换个解码规则就好了。
https://www.cnblogs.com/575dsj/p/7112767.html
二、Python2处理中文字符串技巧: 在对中文字符串处理时(split,str[i]等)用unicode编码,在print时或其它输出时显式指定指定编码。
#最终以unicode编码 def pai_load_sentences(samples, is_lower, is_zeros): sentences = [] #count = 0 for line in samples: line = line.decode(\'utf-8\') print(\'line: \' + line.encode(\'utf8\')) if not isf.line_format_check(line) : continue r_list = isf.pai_line_format(line) if len(r_list) == 0: continue sentence = isf.pai_load_sentences(r_list, is_lower, is_zeros) if len(sentence) > 0: sentences.append(sentence) #print(\'len(sentences)=\', len(sentences)) return sentences
三、Json编码
使用json.dumps()来将待中文的字典数据转换为json字符串时,有时会遇到中文乱码问题,这是因为json.dumps 序列化时默认使用的ascii编码,想输出真正的中文需要指定ensure_ascii=False:更深入分析,是应为dJSON object 不是单纯的unicode实现,而是包含了混合的unicode编码以及已经用utf-8编码之后的字符串。
json_str = json.dumps(dict, ensure_ascii=False)
参考:https://blog.csdn.net/weixin_40612082/article/details/90115045
以上是关于python2编码问题的主要内容,如果未能解决你的问题,请参考以下文章
对 python2 和 python3 使用相同的代码进行编码 + 加密 + 填充的问题