day01-文件编码

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了day01-文件编码相关的知识,希望对你有一定的参考价值。

  1. 汉字编码:gb2312(简体汉字)<——兼容——gbk(简体、繁体)<——兼容——gb18030(简体、繁体、少数民族)。
  2. ascii->unicode->utf-8

python3:所有字符串用Unicode表示,编码后用bytes类型表示:

s=我爱北京天安门。
s_gbk=s.encode(gbk)
print(s_gbk)

输出:

b\xce\xd2\xb0\xae\xb1\xb1\xbe\xa9\xcc\xec\xb0\xb2\xc3\xc5\xa1\xa3

更换编码方式,采用utf-8编码:

s=我爱北京天安门。
s_utf8=s.encode(utf-8)
print(s_utf8)

输出:

b\xe6\x88\x91\xe7\x88\xb1\xe5\x8c\x97\xe4\xba\xac\xe5\xa4\xa9\xe5\xae\x89\xe9\x97\xa8\xe3\x80\x82

万恶的美帝用utf-8把每个汉字用3个字节表示,gbk编码用两个字节表示。

s=我爱北京天安门。
s_gbk=s.encode(gbk)
s_gb2312=s.encode(gb2312)
s_gb18030=s.encode(gb18030)
print(s_gbk)
print(s_gb2312)
print(s_gb18030)

输出:

b\xce\xd2\xb0\xae\xb1\xb1\xbe\xa9\xcc\xec\xb0\xb2\xc3\xc5\xa1\xa3
b\xce\xd2\xb0\xae\xb1\xb1\xbe\xa9\xcc\xec\xb0\xb2\xc3\xc5\xa1\xa3
b\xce\xd2\xb0\xae\xb1\xb1\xbe\xa9\xcc\xec\xb0\xb2\xc3\xc5\xa1\xa3

向下兼容。

s=我爱北京天安门。
s_gbk=s.encode(gbk)
s_gbk_decode=s_gbk.decode(gbk)
s_gbk_decode_encode=s_gbk_decode.encode(utf-8)
print(s_gbk)
print(s_gbk_decode_encode)

输出:

b\xce\xd2\xb0\xae\xb1\xb1\xbe\xa9\xcc\xec\xb0\xb2\xc3\xc5\xa1\xa3
b\xe6\x88\x91\xe7\x88\xb1\xe5\x8c\x97\xe4\xba\xac\xe5\xa4\xa9\xe5\xae\x89\xe9\x97\xa8\xe3\x80\x82

 

以上是关于day01-文件编码的主要内容,如果未能解决你的问题,请参考以下文章

《从零開始学Swift》学习笔记(Day 57)——Swift编码规范之凝视规范:文件凝视文档凝视代码凝视使用地标凝视

python基础知识(day3)

apriori片段代码

day01--格式化输出..运算符..初识编码

小白的Python之路 day1 字符编码

python学习-day01