如何设置python的编码格式为utf-8

Posted 2023-04-23

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了如何设置python的编码格式为utf-8相关的知识，希望对你有一定的参考价值。

python的编码格式？
#coding=utf-8
这是文档编码
import sys
sys.setdefaultencoding("utf-8")
这是设置默认编码方式为utf-8
xx.encode("utf-8")
这是字符串编码操作
import codecs
codecs.open(xx,'r','utf-8")，这是文件编码读取方式参考技术A python的编码格式？
#coding=utf-8
这是文档编码
import sys
sys.setdefaultencoding("utf-8")
这是设置默认编码方式为utf-8
xx.encode("utf-8")
这是字符串编码操作
import codecs
codecs.open(xx,'r','utf-8")，这是文件编码读取方式本回答被提问者采纳参考技术B 在代码最前面写上：#coding:utf-8 即可

Python 字符集编码 - UTF-8 编码

参考技术A

Unicode 的编码范围为 0~0x10FFFF ，如此大的范围，显然没办法像 ASCII 编码一样使用一个字节存储。为此，Unicode 制定了各种储存编码的方式，如： UTF-8 、 UTF-16 和 UTF-32 ，这些存储格式被称为 Unicode 转换格式 UTF 。

每种 Unicode 转换格式都会把一个编码存储为一到多个编码单元，如 UTF-8 的编码单元为 8 位的字节； UTF-16 的编码单元为 16 位，即 2 个字节； UTF-32 的编码单元为 32 位，即 4 个字节。

其中， UTF-8 是在互联网上使用最广泛的一种 Unicode 转换格式，具有以下显著的优势。下面，我们就先来看看 UTF-8 具有哪些有点吧~

1. UTF-8 中每个 ASCII 字符只需要一个字节去存储，因此一个 ASCII 文本本身也是一个 UTF-8 文本，即做到了向后兼容。

比如 A 的 ASCII 码对应为 0x41 ， a 的 ASCII 码对应为 0x61 ，那么 UTF-8 兼容 ASCII 也就意味着：

这里，需要再次提醒一下：Unicode 是表现形式，UTF-8 是存储形式；即 UTF-8 解码之后为 Unicode ，Unicode 可以编码成 UTF-8 。

2. UTF-8 采用字节为存储单元，因此不存在字节的大端和小段的问题。

UTF-16 和 UTF-32 的存储单元分别是 2 字节和 4 字节，因此在存储时会涉及到大小端的问题。那什么是大小端模式呢？下面我们来暂停补充一下~

关于如何获知你的环境使用的是大端模式还是小端模式，这里有个简单的方式：定义一个 short 类型的数组即可：

数字 1 在 short 类型中表示为 0x0001 ，高位为 0x00 ，低位为 0x01 。我们可以很直观地看到，数组在保存数据时，将高位 0x00 放在了高地址处，将低位 0x01 放在了低地址处。因此使用的就是小端模式。

那 UTF-8 为什么可以使用字节来作为存储单元，而不用担心字节序的问题呢？这就涉及到了 UTF-8 巧妙的编码规则~

UTF-8 最大的一个特点，就是它是一种变长的编码方式。它可以使用 1~4 个字节表示一个符号，根据不同的符号而变化字节长度。UTF-8的编码规则很简单，只有二条：

1）对于单字节符号，字节的第一位设为 0 ，后 7 位为这个符号的 Unicode 码。也就是我们上文提到的向后兼容：对于英文字母，UTF-8 编码和 ASCII 码是相同的。

2）对于使用 X 个字节存储的符号，第一个字节的前 X 位设置为 1 ，第 X+1 位设置为 0 ，后面字节的前 2 位一律设置为 10 ，剩下的位置一次填充这个符号的 Unicode 码。

下表总结了编码规则，字母 x 表示可用于编码的位：

跟据上表，解读 UTF-8 编码也非常简单：如果一个字节的第一位是 0 ，则这个字节单独就是一个字符；如果第一位是 1 ，则连续有多少个 1 ，就表示当前字符占用多少个字节。

下面，我们就来演示一下 UTF-8 编码的过程。

首先，获取汉字鱼的 Unicode 码：

我们不妨先对鱼这个汉字使用 utf-8 编码看看使用几个字节存储：

鱼在 UTF-8 编码中使用 3 个字节存储，因此其存储的二进制的形式为 1110xxxx 10xxxxxx 10xxxxxx ，将 Unicode 1001 110001 111100 依次填充到占位符 x 的位置就得到： 11101001 10110001 10111100 。

下面，我们将上述推导得出的 11101001 10110001 10111100 转换为十六进制，验证一下是否为 b\'\\xe9\\xb1\\xbc\' ：

验证无误！

以上是关于如何设置python的编码格式为utf-8的主要内容，如果未能解决你的问题，请参考以下文章

Springboot 编码格式设置为UTF-8

java 怎么获得文件编码格式

python设置统一编码格式（适合新手）

如何在 Linux 中将文件编码转换为 UTF-8

如何为 Eclipse 中的 Java 源文件设置为 UTF-8 默认编码

网页编码格式为UTF-8，文件保存格式也是UTF-8，为啥我用浏览器浏览时是乱码？刷新一下就显示正常！