python-day10--字符编码

Posted 2020-09-29

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了python-day10--字符编码相关的知识，希望对你有一定的参考价值。

1.回顾：

软件→操作系统→硬件

2.文本编辑器：

启动：硬盘→内存→运行（cpu）

读文件：硬盘→内存→CPU读

存文件：保存到硬盘中

3.python解释器

启动：硬盘→内存→运行（cpu）

读文件：硬盘→内存→CPU读

（这两阶段与文本编辑器相同，但第三阶段就不同了，关系到语法等问题）

解释执行：这个阶段就要在内存中开辟新的空间

4.字符编码：顾名思义就是编码字符的

①字符编码的作用：把人能识别的字符通过一种标准翻译成计算能识别的二进制，翻译过程的标准就是字符编码表

②不同的字符编码表

ASCII

用8个位表示一个字节bytes，共可表示2**8=256种

GBK

用2个bytes表示1个字符，共2**16种

Unicode（万国码）

用2个bytes表示1个字符（但是在保存英文字符的时候就浪费空间）

UTF-8（万国码）

对英文存1个bytes，中文存3个bytes

5.计算机内存中用Unicode（速度快），硬盘中用UTF-8（占用空间小，传输稳定）

6.保存文件过程：内存Unicode → encode → 硬盘UTF-8/或其他字符编码

读取文件过程：硬盘UTF-8/或其他字符编码 → decode → 内存Unicode

7.以上总结：

①存文件的时候用的什么编码（encode）取的时候就要用什么编码取（decode）

②python3解释器默认的字符编码是UTF-8，可以更改： #coding：gbk或其他

③python2解释器默认的字符编码是ASCII，可以更改： #coding：uft-8或其他

8.python解释器第三阶段才用到字符串，执行中遇到字符串就会开辟新的内存空间存起来。

在python3中字符串都是unicode格式的二进制存放在内存中，而在python2中字符串都是已经encode后的结果，即bytes。

9.Unicode → encode → bytes

bytes → decode → Unicode

10.python3中有两种形式的字符串：

①.Unicode（解释器自动控制）

②.bytes（Unicode→encode→bytes）（人为控制）

11.python2的字符串有两种:

①. str = bytes（Unicode→encode→bytes）（解释器自动控制）

②. u‘ 字符串 ‘ （相当于python3中的Unicode）

12.为什么要有bytes：

计算机最基本的传输信号就是二进制，就相当说最基本的传输信号就是bytes，所以数据要传输就要用bytes。

以上是关于python-day10--字符编码的主要内容，如果未能解决你的问题，请参考以下文章

python-day1，python基础知识

python-day3-内置函数与字符字节之间的转换

10 字符编码

day10 字符编码和文件处理

Python 字符集编码 - UTF-8 编码

day 10 字符编码和文件处理细节整理