Python基础-字符编码

Posted 2021-01-25 dot-zhang

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了Python基础-字符编码相关的知识，希望对你有一定的参考价值。

字符编码

Python 解释器在加载.py文件中的代码，会对内容进行编码（默认asciII）

ASCII（American Standard Code for Information Interchange,美国标准信息交换代码）是基于拉丁字母的一套电脑编码系统，主要用于显示现代英语和其它西欧语言，其最多只能用8位来表示（一个字节），即：2^8=256-1,所以，ASCII码最多只能表示255个符号。

ASCII值	控制字符	ASCII值	控制字符	ASCII值	控制字符	ASCII值	控制字符
0	NUT	32	(space)	64	@	96	、
1	SOH	33	!	65	A	97	a
2	STX	34	"	66	B	98	b
3	ETX	35	#	67	C	99	c
4	EOT	36	$	68	D	100	d
5	ENQ	37	%	69	E	101	e
6	ACK	38	&	70	F	102	f
7	BEL	39	,	71	G	103	g
8	BS	40	(	72	H	104	h
9	HT	41	)	73	I	105	i
10	LF	42	*	74	J	106	j
11	VT	43	+	75	K	107	k
12	FF	44	,	76	L	108	l
13	CR	45	-	77	M	109	m
14	SO	46	.	78	N	110	n
15	SI	47	/	79	O	111	o
16	DLE	48	0	80	P	112	p
17	DCI	49	1	81	Q	113	q
18	DC2	50	2	82	R	114	r
19	DC3	51	3	83	S	115	s
20	DC4	52	4	84	T	116	t
21	NAK	53	5	85	U	117	u
22	SYN	54	6	86	V	118	v
23	TB	55	7	87	W	119	w
24	CAN	56	8	88	X	120	x
25	EM	57	9	89	Y	121	y
26	SUB	58	:	90	Z	122	z
27	ESC	59	;	91	[	123	{
28	FS	60	<	92	/	124	\|
29	GS	61	=	93	]	125	}
30	RS	62	>	94	^	126	`
31	US	63	?	95	_	127	DEL

关于中文

为了处理汉字，程序员设计了用于简体中文的GB2312和用于繁体中文的big5。

GB2312(1980年)一共收录了7445个字符，包括6763个汉字和682个其它符号，汉字区的内码范围高字节从B0-F7，低字节从A1-FE，占用的码位是72*94=6768，其中有5个空位是D7FA-D7FE。

GB2312支持的汉字太少，1995年的汉字扩展规范GBK1.0收录了21886个符号，它分为汉字区和图形符号区，汉字区包括21003个字符。2000年的GB18030是取代GBK1.0的正式国家标准。该标准收录了27484个汉字，同时还收录了藏文、蒙文、维吾尔文等主要的少数民族文字。现在PC平台必须支持GB18030，对嵌入式产品暂不作要求。所以手机、MP3一般只支持GB2312。

从ASCII、GB2312、GBK到GB18030，这些编码方法是向下兼容的，即同一个字符在这些方案中总是有相同的编码，后面的标准支持更多的字符。在这些编码中，英文和中文可以统一地处理，区分中文编码的方法是高字节的最高位不为0，按照程序员的称呼，GB2312、GBK到GB18030即属于汉字字符集（DBCS）。

有的中文Windows的缺省内码还是GBK，可以通过GB18030升级包升级到GB18030，不过GB18030相对GBK增加字符，普通人是很难用到的，通常我们还是用GBK指代中文Windows内码。

显然ASCII码无法将世界上的各种文字和符号全部表示，所以，就需要新出一种可以代表所有字符和符号的编码，即：Unicode

Unicode(统一码、万国码、单一码)是一种在计算机上使用的字符编码。Unicode是为了解决传统的字符编码方案的局限而产生的，它为每种语言中的每个字符设定了统一并且唯一的二进制编码，规定所有的字符和符号最少由16位来表示（2个字节），即：2^16=65536。

注：此处说的是最少2个字节，可能更多

UTF-8，是对Unicode编码的压缩和优化，他不再是最少使用2个字符，而是将所有的字符和符号进行分类：

Ascii码中的内容用1个字节保存、欧洲的字符用2个字符保存，东亚的字符用3个字节保存...

所以，python解释器在加载.py文件中的代码时，会对内容进行编码（默认ascill），如果是如下代码的话：

在python2.x中：

Erro：ascii码无法表示中文

#!/usr/bin/env python

print ‘你好，世界’

应该更正为：显示的告诉python解释器，用什么编码来执行源代码，即：

# -*- coding:utf-8 -*-
#!/usr/bin/env python

print ‘你好，世界’

PS:在Python3.X中，已经默认支持中文，默认用utf-8

以上是关于Python基础-字符编码的主要内容，如果未能解决你的问题，请参考以下文章

1.2 Python基础知识 - 字符编码

Python 基础 - Day 2 Learning Note - 字符转编码操作

Python之第七天的努力--基础数据类型补充，编码进阶

Python练习之基础语法数据类型字符编码文件操作

python基础12 字符编码