day01-文件编码

Posted 2020-10-04

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了day01-文件编码相关的知识，希望对你有一定的参考价值。

汉字编码：gb2312(简体汉字)<——兼容——gbk（简体、繁体）<——兼容——gb18030（简体、繁体、少数民族）。
ascii->unicode->utf-8

python3：所有字符串用Unicode表示，编码后用bytes类型表示：

s=‘我爱北京天安门。‘
s_gbk=s.encode(‘gbk‘)
print(s_gbk)

输出：

b‘\xce\xd2\xb0\xae\xb1\xb1\xbe\xa9\xcc\xec\xb0\xb2\xc3\xc5\xa1\xa3‘

更换编码方式，采用utf-8编码：

s=‘我爱北京天安门。‘
s_utf8=s.encode(‘utf-8‘)
print(s_utf8)

输出：

b‘\xe6\x88\x91\xe7\x88\xb1\xe5\x8c\x97\xe4\xba\xac\xe5\xa4\xa9\xe5\xae\x89\xe9\x97\xa8\xe3\x80\x82‘

万恶的美帝用utf-8把每个汉字用3个字节表示，gbk编码用两个字节表示。

s=‘我爱北京天安门。‘
s_gbk=s.encode(‘gbk‘)
s_gb2312=s.encode(‘gb2312‘)
s_gb18030=s.encode(‘gb18030‘)
print(s_gbk)
print(s_gb2312)
print(s_gb18030)

输出：

b‘\xce\xd2\xb0\xae\xb1\xb1\xbe\xa9\xcc\xec\xb0\xb2\xc3\xc5\xa1\xa3‘
b‘\xce\xd2\xb0\xae\xb1\xb1\xbe\xa9\xcc\xec\xb0\xb2\xc3\xc5\xa1\xa3‘
b‘\xce\xd2\xb0\xae\xb1\xb1\xbe\xa9\xcc\xec\xb0\xb2\xc3\xc5\xa1\xa3‘

向下兼容。

s=‘我爱北京天安门。‘
s_gbk=s.encode(‘gbk‘)
s_gbk_decode=s_gbk.decode(‘gbk‘)
s_gbk_decode_encode=s_gbk_decode.encode(‘utf-8‘)
print(s_gbk)
print(s_gbk_decode_encode)

输出：

b‘\xce\xd2\xb0\xae\xb1\xb1\xbe\xa9\xcc\xec\xb0\xb2\xc3\xc5\xa1\xa3‘
b‘\xe6\x88\x91\xe7\x88\xb1\xe5\x8c\x97\xe4\xba\xac\xe5\xa4\xa9\xe5\xae\x89\xe9\x97\xa8\xe3\x80\x82‘

以上是关于day01-文件编码的主要内容，如果未能解决你的问题，请参考以下文章