Python学习笔记015——汉字编码

Posted gengyi

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Python学习笔记015——汉字编码相关的知识,希望对你有一定的参考价值。

1 字符串的编码(encode)格式

GB2312   GBK   GB18030  UTF-8  ASCII

其中常用的编码格式有

国标系列:GB18030(GBK(GB2312)) (windows常用) 

国际标准:UNICODE16 <---> UTF-8 (Linux / Mac OS X / IOS / Android等常用)

 

一个汉字对应多少个字节?

2个(GBK)/ 3个(UTF-8)

1.1  GB2312-80编码

1980年发布

两个字节进行编码,编码范围(A1A1-FEFE) (0xa1-0xfe)(0xa1-xfe) 含有6763个汉字和682个字符

1.2 GBK编码

1995年制订

用两字节编码(8140~FEFE)

完全兼容GB2312,共21003个汉字(汉文,蒙文等)

1.3 GB18030-2005 编码

2005年制订共27533个汉字,用两个字节和四字节进行编码,两字节与GBK相同。

四字节: 略

1.4 UNICODE16编码(0x0000 ~ 0xFFFF)

UTF-8编码 (8-bit Unicode Transformation Format)

UNICODE <<---->> UTF-8互转 0000~007F 一字节(ASCII) 0080~07FF 二字节 0800~FFFF 三字节(汉字落在此区)

UNICODE编码:UNICODE16(两字节)、UNICODE32(四字节编码)。

 

可以参考:

Python 文本和字节序列

Python 字节与字节数组 - PyTips 0x08

 

以上是关于Python学习笔记015——汉字编码的主要内容,如果未能解决你的问题,请参考以下文章

python的学习笔记/001(2018-5-14 )

python学习笔记_字符编码

Python学习笔记015——文件file的常规操作之二(二进制文件)

python学习笔记

小甲鱼Python学习笔记

原Java学习笔记015 - 面向对象