python 编码

Posted 2021-01-31 暂时没想好

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了python 编码相关的知识，希望对你有一定的参考价值。

1. python2中默认使用的是ASCII码. 所以不支持中文. 如果需要在Python2中更改编码.
需要在文件的开始编写:
# -*- encoding:utf-8 -*-
2. python3中:内存中使用的是unicode码.
　　　　1. ASCII : 最早的编码.里面有英文大写字母,小写字母, 数字, 一些特殊字符. 没有中文, 8个01代码, 8个bit, 1个byte
　　　　2. GBK: 中文国标码,里面包含 ASCII编码和中文常用编码. 16个bit, 2个byte
　　　　3. UNICODE: 万国码,里面包含了全世界所有国家文字的编码. 32个bit, 4个byte, 包含了ASCII
　　　　4. UTF-8: 可变长度的万国码. 是unicode的一种实现. 最小字符占8位
　　　　1.英文: 8bit 1byte
　　　　2.欧洲文字:16bit 2byte
　　　　3.中文:24bit 3byte
综上, 除了ASCII码以外, 其他信息不能直接转换.
在python3的内存中. 在程序运行阶段. 使用的是unicode编码. 因为unicode是万国码. 什么内容都可以进行显示. 那么在数据传输和存储的时候由于unicode比较浪费空间和资源. 需要把unicode转存成UTF-8或者GBK进行存储. 怎么转换呢.在python中可以把文字信息进行编码. 编码之后的内容就可以进行传输 . 编码之后的数据是bytes类型的数据.其实啊. 还是原来的数据只是经过编码之后表现形式发生了改变而已.
bytes的表现形式:
1. 英文 b‘alex‘ 英文的表现形式和字符串没什么两样
2. 中文 b‘xe4xb8xad‘ 这是一个汉字的UTF-8的bytes表现形式
字符串在传输时转化成bytes=> encode(字符集)来完成

s = "alex"
print(s.encode("utf-8")) # 将字符串编码成UTF-8 
print(s.encode("GBK")) # 将字符串编码成GBK
结果:
b‘alex‘
b‘alex‘
s = "中"
print(s.encode("UTF-8")) # 中文编码成UTF-8 
print(s.encode("GBK")) # 中文编码成GBK
结果: 
b‘xe4xb8xad‘ 
b‘xd6xd0‘

记住: 英文编码之后的结果和源字符串一致. 中文编码之后的结果根据编码的不同. 编码结果也不同. 我们能看到. 一个中文的UTF-8编码是3个字节. 一个GBK的中编码是2个字节. 编码之后的类型就是bytes类型. 在网络传输和存储的时候我们python是保存和存储的bytes类型. 那么在对方接收的时候. 也是接收的bytes类型的数据. 我们可以使用decode()来进行解码操作. 把bytes类型的数据还原回我们熟悉的字符串:

s = "我叫李嘉诚"
print(s.encode("utf-8")) # b‘xe6x88x91xe5x8fxabxe6x9dx8exe5x98x89xe8xafx9a‘
print(b‘xe6x88x91xe5x8fxabxe6x9dx8exe5x98x89xe8xafx9a‘.decode("utf-8")) # 解码

编码和解码的时候都需要制定编码格式.

s = "我是文字"
bs = s.encode("GBK") # 我们这样可以获取到GBK的文字 
# 把GBK转换成UTF-8
# 首先要把GBK转换成unicode. 也就是需要解码
s = bs.decode("GBK") # 解码
# 然后需要进行重新编码成UTF-8
bss = s.encode("UTF-8") # 重新编码
print(bss)

以上是关于python 编码的主要内容，如果未能解决你的问题，请参考以下文章

使用非utf-8编码在Python中解析XML

从 XML 声明片段获取 XML 编码：部分内容解析不支持 XmlDeclaration

Python之如何优雅的重试

《安富莱嵌入式周报》第279期：强劲的代码片段搜索工具，卡内基梅隆大学安全可靠C编码标准，Nordic发布双频WiFi6 nRF7002芯片

常用python日期日志获取内容循环的代码片段

python 有用的Python代码片段