常用模块知识
Posted 妙香沫颜
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了常用模块知识相关的知识,希望对你有一定的参考价值。
阅读目录
collections模块
在内置数据类型(dict、list、set、tuple)的基础上,collections模块还提供了几个额外的数据类型:Counter、deque、defaultdict、namedtuple和OrderedDict等。
1.namedtuple: 生成可以使用名字来访问元素内容的tuple
2.deque: 双端队列,可以快速的从另外一侧追加和推出对象
3.Counter: 计数器,主要用来计数
4.OrderedDict: 有序字典
5.defaultdict: 带有默认值的字典
namedtuple
我们知道tuple
可以表示不变集合,例如,一个点的二维坐标就可以表示成:
>>> p = (1, 2)
但是,看到(1, 2),很难看出这个tuple是用来表示一个坐标的。
这时,namedtuple
就派上了用场:
>>> from collections import namedtuple >>> Point = namedtuple(\'Point\', [\'x\', \'y\']) >>> p = Point(1, 2) >>> p.x 1 >>> p.y 2
类似的,如果要用坐标和半径表示一个圆,也可以用namedtuple
定义:
#namedtuple(\'名称\', [属性list]): Circle = namedtuple(\'Circle\', [\'x\', \'y\', \'r\'])
deque
使用list存储数据时,按索引访问元素很快,但是插入和删除元素就很慢了,因为list是线性存储,数据量大的时候,插入和删除效率很低。
deque是为了高效实现插入和删除操作的双向列表,适合用于队列和栈:
>>> from collections import deque >>> q = deque([\'a\', \'b\', \'c\']) >>> q.append(\'x\') >>> q.appendleft(\'y\') >>> q deque([\'y\', \'a\', \'b\', \'c\', \'x\'])
deque除了实现list的append()
和pop()
外,还支持appendleft()
和popleft()
,这样就可以非常高效地往头部添加或删除元素。
OrderedDict
使用dict时,Key是无序的。在对dict做迭代时,我们无法确定Key的顺序。
如果要保持Key的顺序,可以用OrderedDict
:
>>> from collections import OrderedDict >>> d = dict([(\'a\', 1), (\'b\', 2), (\'c\', 3)]) >>> d # dict的Key是无序的 {\'a\': 1, \'c\': 3, \'b\': 2} >>> od = OrderedDict([(\'a\', 1), (\'b\', 2), (\'c\', 3)]) >>> od # OrderedDict的Key是有序的 OrderedDict([(\'a\', 1), (\'b\', 2), (\'c\', 3)])
注意,OrderedDict
的Key会按照插入的顺序排列,不是Key本身排序:
>>> od = OrderedDict() >>> od[\'z\'] = 1 >>> od[\'y\'] = 2 >>> od[\'x\'] = 3 >>> od.keys() # 按照插入的Key的顺序返回 [\'z\', \'y\', \'x\']
defaultdict
有如下值集合 [
11
,
22
,
33
,
44
,
55
,
66
,
77
,
88
,
99
,
90.
..],将所有大于
66
的值保存至字典的第一个key中,将小于
66
的值保存至第二个key的值中。
即: {
\'k1\'
: 大于
66
,
\'k2\'
: 小于
66
}
使用dict
时,如果引用的Key不存在,就会抛出KeyError
。如果希望key不存在时,返回一个默认值,就可以用defaultdict
:
Counter
Counter类的目的是用来跟踪值出现的次数。它是一个无序的容器类型,以字典的键值对形式存储,其中元素作为key,其计数作为value。计数值可以是任意的Interger(包括0和负数)。Counter类和其他语言的bags或multisets很相似。
c = Counter(\'abcdeabcdabcaba\') print c 输出:Counter({\'a\': 5, \'b\': 4, \'c\': 3, \'d\': 2, \'e\': 1})
其他关于Counter的内容
Counter目的是用来跟踪值出现的次数。它是一个无序的容器类型,以字典的键值对形式存储,其中元素作为key,其计数作为value。计数值可以是任意的Interger(包括0和负数)。Counter类和其他语言的bags或multisets很相似。
创建
下面的代码说明了Counter类创建的四种方法:
计数值的访问与缺失的键
当所访问的键不存在时,返回0,而不是KeyError;否则返回它的计数。
>>> c = Counter("abcdefgab") >>> c["a"] 2 >>> c["c"] 1 >>> c["h"] 0
计数器的更新(update和subtract)
可以使用一个iterable对象或者另一个Counter对象来更新键值。
计数器的更新包括增加和减少两种。其中,增加使用update()方法:
>>> c = Counter(\'which\') >>> c.update(\'witch\') # 使用另一个iterable对象更新 >>> c[\'h\'] 3 >>> d = Counter(\'watch\') >>> c.update(d) # 使用另一个Counter对象更新 >>> c[\'h\'] 4
减少则使用subtract()方法:
键的修改和删除
当计数值为0时,并不意味着元素被删除,删除元素应当使用del
。
elements()
返回一个迭代器。元素被重复了多少次,在该迭代器中就包含多少个该元素。元素排列无确定顺序,个数小于1的元素不被包含。
>>> c = Counter(a=4, b=2, c=0, d=-2) >>> list(c.elements()) [\'a\', \'a\', \'a\', \'a\', \'b\', \'b\']
most_common([n])
返回一个TopN列表。如果n没有被指定,则返回所有元素。当多个元素计数值相同时,排列是无确定顺序的。
>>> c = Counter(\'abracadabra\') >>> c.most_common() [(\'a\', 5), (\'r\', 2), (\'b\', 2), (\'c\', 1), (\'d\', 1)] >>> c.most_common(3) [(\'a\', 5), (\'r\', 2), (\'b\', 2)]
浅拷贝copy
>>> c = Counter("abcdcba") >>> c Counter({\'a\': 2, \'c\': 2, \'b\': 2, \'d\': 1}) >>> d = c.copy() >>> d Counter({\'a\': 2, \'c\': 2, \'b\': 2, \'d\': 1})
算术和集合操作
+、-、&、|操作也可以用于Counter。其中&和|操作分别返回两个Counter对象各元素的最小值和最大值。需要注意的是,得到的Counter对象将删除小于1的元素。
>>> c = Counter(a=3, b=1) >>> d = Counter(a=1, b=2) >>> c + d # c[x] + d[x] Counter({\'a\': 4, \'b\': 3}) >>> c - d # subtract(只保留正数计数的元素) Counter({\'a\': 2}) >>> c & d # 交集: min(c[x], d[x]) Counter({\'a\': 1, \'b\': 1}) >>> c | d # 并集: max(c[x], d[x]) Counter({\'a\': 3, \'b\': 2})
其他常用操作
下面是一些Counter类的常用操作,来源于Python官方文档
正则表达式:
一说规则我已经知道你很晕了,现在就让我们先来看一些实际的应用。在线测试工具 http://tool.chinaz.com/regex/
在这里我们要知道的是,讲到正则就只和字符串相关了,你们输入的每一个字都是字符串
还有一种情况是不用规则的,那就是在一个位置的一个值,就不用去规则了(比如用1去匹配1,或者用2去匹配2)
然而我们考虑的是在同一个位置上可以出现的字符范围
字符组 : [字符组] 在同一个位置可能出现的各种字符组成了一个字符组,在正则表达式中用[]表示 字符分为很多类,比如数字、字母、标点等等。 假如你现在要求一个位置"只能出现一个数字",那么这个位置上的字符只能是0、1、2...9这10个数之一。
正则 |
待匹配字符 |
匹配 |
说明 |
[0123456789] |
8 |
True |
在一个字符组里枚举合法的所有字符,字符组里的任意一个字符 |
[0123456789] |
a |
False |
由于字符组中没有"a"字符,所以不能匹配 |
[0-9] |
7 |
True |
也可以用-表示范围,[0-9]就和[0123456789]是一个意思 |
[a-z] |
s |
True |
同样的如果要匹配所有的小写字母,直接用[a-z]就可以表示 |
[A-Z] |
B |
True |
[A-Z]就表示所有的大写字母 |
[0-9][a-f][A-F] |
e |
True |
可以匹配数字,大小写形式的a~f,用来验证十六进制字符 |
字符:
元字符 |
匹配内容 |
. | 匹配除换行符以外的任意字符 |
\\w | 匹配字母或数字或下划线 |
\\s | 匹配任意的空白符 |
\\d | 匹配数字 |
\\n | 匹配一个换行符 |
\\t | 匹配一个制表符 |
\\b | 匹配一个单词的结尾 |
^ | 匹配字符串的开始 |
$ | 匹配字符串的结尾 |
\\W |
匹配非字母或数字或下划线 |
\\D |
匹配非数字 |
\\S |
匹配非空白符 |
a|b |
匹配字符a或字符b |
() |
匹配括号内的表达式,也表示一个组 |
[...] |
匹配字符组中的字符 |
[^...] |
匹配除了字符组中字符的所有字符 |
量词:
量词 |
用法说明 |
* | 重复零次或更多次 |
+ | 重复一次或更多次 |
? | 重复零次或一次 |
{n} | 重复n次 |
{n,} | 重复n次或更多次 |
{n,m} | 重复n到m次 |
. ^ $
正则 | 待匹配字符 | 匹配 结果 |
说明 |
海. | 海燕海娇海东 | 海燕海娇海东 | 匹配所有"海."的字符 |
^海. | 海燕海娇海东 | 海燕 | 只从开头匹配"海." |
海.$ | 海燕海娇海东 | 海东 | 只匹配结尾的"海.$" |
* + ? { }
正则 | 待匹配字符 | 匹配 结果 |
说明 |
李.? | 李杰和李莲英和李二棍子 |
李杰 |
?表示重复零次或一次,即只匹配"李"后面一个任意字符 |
李.* | 李杰和李莲英和李二棍子 | 李杰和李莲英和李二棍子 |
*表示重复零次或多次,即匹配"李"后面0或多个任意字符 |
李.+ | 李杰和李莲英和李二棍子 | 李杰和李莲英和李二棍子 |
+表示重复一次或多次,即只匹配"李"后面1个或多个任意字符 |
李.{1,2} | 李杰和李莲英和李二棍子 |
李杰和 |
{1,2}匹配1到2次任意字符 |
注意:前面的*,+,?等都是贪婪匹配,也就是尽可能匹配,后面加?号使其变成惰性匹配
正则 | 待匹配字符 | 匹配 结果 |
说明 |
李.*? | 李杰和李莲英和李二棍子 | 李杰 李莲 李二 |
惰性匹配 |
字符集[][^]
正则 | 待匹配字符 | 匹配 结果 |
说明 |
李[杰莲英二棍子]* | 李杰和李莲英和李二棍子 |
李杰 |
表示匹配"李"字后面[杰莲英二棍子]的字符任意次 |
李[^和]* | 李杰和李莲英和李二棍子 |
李杰 |
表示匹配一个不是"和"的字符任意次 |
[\\d] | 456bdha3 |
4 |
表示匹配任意一个数字,匹配到4个结果 |
[\\d]+ | 456bdha3 |
456 |
表示匹配任意个数字,匹配到2个结果 |
分组 ()与 或 |[^]
身份证号码是一个长度为15或18个字符的字符串,如果是15位则全部
以上是关于常用模块知识的主要内容,如果未能解决你的问题,请参考以下文章