集合+字符编码

Posted 张仁国

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了集合+字符编码相关的知识,希望对你有一定的参考价值。

集合及关系运算

  1. 用途:关系运算,去重

  2. 定义方式:s={},花括号内用逗号隔开多个元素,每一个元素都必须是不可变类型。

    强调:

  1. 集合内的元素无序

  2. 集合内的元素不能改变

  3. 集合内的元素必须是不可变元素

    单纯的用集合去重:

  1. 去重的目标所包含的值必须都为不可变型

  2. 去重的集合会打乱原来的顺序

     

    优先掌握的操作

  1. 长度len

  2. 成员运算 innot in

  3. 合集|

  4. 四交集&

  5. 差集-

  6. 对称差集

  7. ==

  8. 父集

  9. 子集

     

     

    内置方法:

    .add

    .pop

    .remove

    .clear

    .copy

    .difference

    .discard

    .isdisjoint

     

     

     

     

     

     

     

    字符编码

  1. 什么是字符编码

    将人类的字符编码转变成计算机能是别的数字。这种转换必须遵循一套固定的标准,该标准无非是人类字符与数字的对应关系,称之为字符编码表

    bit:二进制位

    Bytes:字节

    ASCII码表:用一个Bytes表示一个英文字符

    GBK:用两个Bytes表示一个中文字符,用一个Bytes表示一个英文字符

    unicode:内存中使用的是unicode编码,unicode把全世界的字符都建立好关系,用两个Bytes去表示字符

    utf-8用一个Bytes表示英文字符,用三个Bytes表示中文

     

    字符编码

  1. 内存中固定使用unicode编码,我们唯一可以改变的是存储到硬盘时候的编码

  2. 要想保证存取文件不乱码,应该保证当初是以什么编码格式存的,就应该以什么编程格式解码

    unicode=====》编码======gbk

    Unicode====解码=======gbk

  3. Python3默认解释器 utf-8

    Python2默认解释器ASCII

    文件头

    #codingutf-8

     

     

    python2中有两种字符串编码格式

  1. Unicode

            X

  2. unicode编码后的结果:

       X=’如果文件头为condutf-8 ,那么在成utf-8格式的字符串

    python3

    X=‘上’

    x只有进行编码

    X.encode

    总结

    python3中的字符串类型str都是unicode编码的

    Python2中的字符串类型str都是unicode按文件头的指定编码,编码后的结果

    Python2中也可以制造出unicode编码的字符串,需要早字符串潜在u

    python3中的字符串类型str都是unicode编码,所以python3中的字符串可以编码成其他编码格式,编码的结果是bytes类型

以上是关于集合+字符编码的主要内容,如果未能解决你的问题,请参考以下文章

关于Unicode,字符集,字符编码

字库编码字符集字符编码的学习

python集合文件处理字符编码

集合字符编码

集合和字符编码

python_day07_集合类型与字符编码