python字符编码

Posted 2021-01-12 yangjinquan

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了python字符编码相关的知识，希望对你有一定的参考价值。

1.1什么是字节

字节（Byte）是计算机信息技术用于计量存储容量的一种计量单位，也表示一些计算机编程语言中的数据类型和语言字符。

比特（bit）在计算机中最小的单位，在二进制位的电脑的系统中，每一bit，表示0或1 ，的数字信号。

1.1.1在不同字符编码的字节表示

ASCII码:一个英文字母（不分大小写）占一个字节（1B）的空间。一个二进制数字序列，在计算机中作为一个数字单元，一般为8位二进制数，换算成10进制，最小值0，最大值255.
utf-8编码:一个英文字符等于一个字节，一个中文（含繁体）等于3个字节。
unicode编码：一个英文等于两个字节，一个中文（含繁体）等于2个字节。

符号：英文标点占一个字节，中文的标点占两个字节。例:英文句号"."占一个字节大小，中文句号"。"占两个字节大小。

1.2进制的表示和转换

进制的表示：

二进制： 0 1

8进制： 0 1 2 3 4 5 6 7 （0-7的组合）（8进制的一位对应2进制的3位，不足3位补位用0表示）

10进制：0-9的组合

16进制：0 1 2 3 4 5 6 7 8 9 A B C D E F（0-F的组合）(16进制的一位对应2进制的4位，不足4位补位用0表示)

进制之间的转换：

http://jingyan.baidu.com/article/495ba84109665338b30ede98.html

1.3数据存储和数据传输

数据存储

硬盘厂商是以10进制（即10的3次方=1000，1MB = 1000KB）计算的，而计算机是二进制表示(2的10次方，即1MB = 1024KB)。

在计算机好多1TB的硬盘，在计算机只有

1TB = 1000GB = 1000000MB = 1000000000KB = 1000000000000B 硬盘厂商表示

1TB = 1000000000000B /1024 /1024 /1024 = 931GB 计算机容量表示

1KB=1024B；1MB=1024KB=1024×1024B。其中1024=210。
1B（byte，字节）= 8 bit（见下文）；
1KB（Kibibyte，千字节）=1024B= 2^10 B；
1MB（Mebibyte，兆字节，百万字节，简称“兆”）=1024KB= 2^20 B；
1GB（Gigabyte，吉字节，十亿字节，又称“千兆”）=1024MB= 2^30 B；
1TB（Terabyte，万亿字节，太字节）=1024GB= 2^40 B；
1PB（Petabyte，千万亿字节，拍字节）=1024TB= 2^50 B；
1EB（Exabyte，百亿亿字节，艾字节）=1024PB= 2^60 B；
1ZB（Zettabyte，十万亿亿字节，泽字节）= 1024EB= 2^70 B；
1YB（Yottabyte，一亿亿亿字节，尧字节）= 1024ZB= 2^80 B；
1BB（Brontobyte，一千亿亿亿字节）= 1024YB= 2^90 B；
1NB（NonaByte，一百万亿亿亿字节） = 1024 BB = 2^100 B；
1DB（DoggaByte，十亿亿亿亿字节） = 1024 NB = 2^110 B

数据传输：

数据存储是字节（"Byte"）为单位，数据传输大多是以“位”（"bit"，又名“比特”）为单位，一个位就表示0或q（即二进制），每8个位（"bit"，简写为b）组成一个字节（Byte,简写B），bit是最小一级的信息单位

在计算机中传输的最小单位是信号单位bit ，数字信息流的基本单位是bit，时间的基本单位是s（秒），因此bit/s(比特每秒)是描述宽带的基本单位。

带宽（bps）就是在一个固定的时间内（1秒），能通过的最大位数据。

bps （bit per second）

例：

有些宽带运营商，一个20Mbps的带宽，而实际的最大下载速度大约只有2.5MB/s （这是以每秒多少字节下载，大写B）

20Mb/s = 20 / 8 = 2.5MB/s

1Mb/s = 1024Kb/s = 1024Kb / 8 = 128KB / s

你的上传速度和下载速度都是共用你的带宽

1.4字符编码

字符编码就是：特定的字符如何对应一个特定的数字标准

1.ASCII编码

　　由于计算机是美国人发明的，因此，最早只有128个字母被编码到计算机里，也就是大小写英文字母、数字和一些英文符号，这个编码被称为ASCII码，最初使用的是ASCII码（American Standared Code for information interchange ,美国标准信息交换码）。

虽然标准ASCII字符集字符数目有限，但由于计算机基本处理单位为字节（1Byte =1bit ），所以一般任意一个字节存放一个ASCII字符，每一个字节中多余出来的一位（最高位）在计算机内部通常保持为0（在数据传输是可用做奇偶校验位。）由于标准ASCII字符集数目有限，在实际应用中往往不够用，后来加入了很多画表格时需要用到下划线、竖线、交叉等序号遍到了最后一个状态255，从128到255这一页的字符集称为“扩展字符集”。

2.GBK 、GB18030、GB2312

GB2312(1980年)一共收录了7445个字符，包括6763个汉字和682个其它符号。汉字区的内码范围高字节从B0-F7，低字节从A1-FE，占用的码位是72*94=6768。其中有5个空位是D7FA-D7FE。

GB2312 支持的汉字太少。1995年的汉字扩展规范GBK1.0收录了21886个符号，它分为汉字区和图形符号区。汉字区包括21003个字符。2000年的 GB18030是取代GBK1.0的正式国家标准。该标准收录了27484个汉字，同时还收录了藏文、蒙文、维吾尔文等主要的少数民族文字。现在的PC平台必须支持GB18030，对嵌入式产品暂不作要求。所以手机、MP3一般只支持GB2312。

GBK就是汉字编码的规范

从ASCII、GB2312、GBK 到GB18030，这些编码方法是向下兼容的，即同一个字符在这些方案中总是有相同的编码，后面的标准支持更多的字符。

3.unicode编码

全世界有上百种语言，日本把日文编到Shift_JIS里，韩国把韩文编到Euc-kr里，各国有各国的标准，就会不可避免地出现冲突，结果就是，在多语言混合的文本中，显示出来会有乱码。

因此，Unicode应运而生。Unicode把所有语言都统一到一套编码里，这样就不会再有乱码问题了。Unicode标准也在不断发展，但最常用的是用两个字节表示一个字符（如果要用到非常偏僻的字符，就需要4个字节）。现代操作系统和大多数编程语言都直接支持Unicode。

UNICODE 。（ Universal Multiple-Octet Coded Character Set ）简称UCS

在UNICODE 中，一个汉字算两个英文字符的时代已经快过去了。

无论是半角的英文字母，还是全角的汉字，它们都是统一的“一个字符”！同时，也都是统一的“两个字节"”

请注意”字符”和”字节”两个术语的不同，“字节”是一个8位的物理存贮单元，而“字符”则是一个文化相关的符号。在unicode中，一个字符就是两个字节。一个汉字算两个英文字符的时代已经快过去了。

我们已经知道，英文字母只用一个字节表示就够了，如果unicode统一规定，一个字符都表示两字节这对于存储空间来说是极大的浪费，文本文件的大小会因此大出二倍，这是难以接受的。

4.UTF-8

unicode在很长一段时间内无法推广，直到互联网的出现，为解决unicode如何在网络上传输的问题，于是面向传输的众多 UTF（UCS Transfer Format）标准出现了，顾名思义，UTF-8就是每次8个位传输数据，

而UTF-16就是每次16个位。UTF-8就是在互联网上使用最广的一种unicode的实现方式，这是为传输而设计的编码，并使编码无国界，这样就可以显示全世界上所有文化的字符了。

UTF-8最大的一个特点，就是它是一种变长的编码方式。它可以使用1~4个字节表示一个符号，根据不同的符号而变化字节长度，当字符在ASCII 码的范围时，就用一个字节表示，保留了ASCII字符一个字节的编码做为它的一部分，注意的是unicode一个中文字符占2个字节，而UTF-8一个中文字符占3个字节）。

从unicode到uft-8并不是直接的对应，而是要过一些算法和规则来转换。

以上是关于python字符编码的主要内容，如果未能解决你的问题，请参考以下文章

如何测试文本片段是不是是 Quoted-printable 编码的

Python 必知的 20 个骚操作！

python+spark程序代码片段

python编码与代码注释

Python代码阅读（第25篇）：将多行字符串拆分成列表

Python string中删除(过滤)掉emoji表情字符