集合+字符编码
Posted 张仁国
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了集合+字符编码相关的知识,希望对你有一定的参考价值。
集合及关系运算
-
用途:关系运算,去重
-
定义方式:s={},花括号内用逗号隔开多个元素,每一个元素都必须是不可变类型。
强调:
-
集合内的元素无序
-
集合内的元素不能改变
-
集合内的元素必须是不可变元素
单纯的用集合去重:
-
去重的目标所包含的值必须都为不可变型
-
去重的集合会打乱原来的顺序
优先掌握的操作
-
长度len
-
成员运算 in和not in
-
合集|
-
四交集&
-
差集-
-
对称差集
-
==
-
父集
-
子集
内置方法:
.add
.pop
.remove
.clear
.copy
.difference
.discard
.isdisjoint
字符编码
-
什么是字符编码
将人类的字符编码转变成计算机能是别的数字。这种转换必须遵循一套固定的标准,该标准无非是人类字符与数字的对应关系,称之为字符编码表
bit:二进制位
Bytes:字节
ASCII码表:用一个Bytes表示一个英文字符
GBK:用两个Bytes表示一个中文字符,用一个Bytes表示一个英文字符
unicode:内存中使用的是unicode编码,unicode把全世界的字符都建立好关系,用两个Bytes去表示字符
utf-8用一个Bytes表示英文字符,用三个Bytes表示中文
字符编码
-
内存中固定使用unicode编码,我们唯一可以改变的是存储到硬盘时候的编码
-
要想保证存取文件不乱码,应该保证当初是以什么编码格式存的,就应该以什么编程格式解码
unicode=====》编码======gbk
Unicode《====解码=======gbk
-
Python3默认解释器 utf-8
Python2默认解释器ASCII
文件头
#coding:utf-8
在python2中有两种字符串编码格式
-
Unicode
X:’上’
-
unicode编码后的结果:
X=’上’如果文件头为cond:utf-8 ,那么在成utf-8格式的字符串
在python3中
X=‘上’
x只有进行编码
X.encode
总结
在python3中的字符串类型str都是unicode编码的
在Python2中的字符串类型str都是unicode按文件头的指定编码,编码后的结果
Python2中也可以制造出unicode编码的字符串,需要早字符串潜在u
在python3中的字符串类型str都是unicode编码,所以python3中的字符串可以编码成其他编码格式,编码的结果是bytes类型
以上是关于集合+字符编码的主要内容,如果未能解决你的问题,请参考以下文章