python爬虫 Day 6

Posted 2021-09-03 国民好姐姐

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了python爬虫 Day 6相关的知识，希望对你有一定的参考价值。

正则表达式上

正则表达式

1.定义
正则表达式是对字符操作的一种逻辑公式，就是用事先定义好的一些特定字符以及这些特定字符的组合，组成一个“规则字符串”，这个规则字符串用来表达对字符串的一种过滤逻辑
2.作用
（1）表单验证（例如：手机号、邮箱、身份证）
（2）爬虫--从网页源码中提取数据
3.正则表达式对python的支持
（1）普通字符：字母、数字、汉字、下划线、以及没有特殊含义的符号
（2）正则中的普通字符：在匹配的时候只匹配与自身相同的一个字符
4.例子
表达式c，在匹配字符串abcde时
匹配结果：成功
匹配到的内容：c
匹配到的位置：开始于2，结束于3

match()函数

1.模板
match(pattern, string, flags=0)
2.含义
（1）pattern: 是指正则表达式，如果匹配成功，则返回一个match对象，否则返回一个None
（2）string: 是指要匹配的字符串
（3）flags=0: 是标致位，用于控制正则表达式的匹配方式，如是否区分大小写，多行匹配等

元字符

用来表示一些特殊含义或者功能

表达式	匹配
.	小数点可以匹配除了换行符\\n以外的任意一个字符
\|	逻辑或字符
[]	匹配字符集中的任意一个字符
[^]	对字符集求反，也就是上面的补集。^必须在方括号的最前面
-	定义[ ]里的一个字符区间，例如a-z
\\	对紧跟其后的一个字符进行转义
()	对表达式进行分组，将圆括号内的内容当作一个整体，并获得匹配的值

一些无法书写或者具有特殊功能的字符，采用在前面加斜杠进行转义的方法

表达式	匹配
\\r	回车
\\n	换行符
`\\\\`	斜杠
`\\^`	^
`\\$`	$
`\\.`	.

预定义匹配字符集

可以同时匹配某个预定义字符集中的任意一个字符

表达式	匹配
\\d	0-9 中的任意一个数字
\\w	A-Z, a-z，_中的任意一个字符
\\s	空格、制表符、换页符等空白字符的其中一个
\\D	\\d的补集
\\W	\\w的补集
\\S	\\s的补集

重复匹配

表达式	匹配
{n}	表达式至少重复n次
{m,n}	表达式至少重复m次，至多重复n次
{m,}	表达式至少重复m次
?	表达式出现0或者1次
+	表达式至少出现1次
*	表达式出现0到任意次

代码

（1）代码re_match

import re

# s就是待匹配的数据
s = \'python and java\'
# ptn就是匹配的模板
ptn = \'python\'

result = re.match(ptn, s)
# print(result)
if result:
    print(result.group())
else:
    print(\'匹配失败！\')

（2）代码re_examples--元字符

import re

# 元字符

# . 匹配除了换行符之外的任意一个字符
# a.c 匹配以a开头 c结尾 中间任意一个除换行以外的字符
e1 = re.match(\'a.c\', \'abc\').group()
print(e1)
e2 = re.match(\'a.c\', \'a我c\').group()
print(e2)
e3 = re.match(\'a.c\', \'a\\nc\').group()
print(e3)  # 报错

# r 原生字符串 不需要进行转义了 原本python解释器和正则都将会进行转义
print(\'\\\\\\\\\')
print(r\'\\\\\\\\\')

# | 逻辑或操作符
a|b用来匹配a或者是b
print(re.match(\'a|b\', \'a\').group())
print(re.match(\'a|c\', \'c\').group())
print(re.match(\'a|b|c|d\', \'cd\').group())  # 只有一个c哦

# match是从头开始匹配的 一旦匹配失败就结束了 返回第一个匹配结果
e1 = re.match(\'a|b\', \'ba\').group()
print(e1)
e2 = re.match(\'a|c\', \'ba\').group()
print(e2)  # 报错
e3 = re.search(\'a|c\', \'cba\').group()
print(e3)  # search 和 match 之间的区别

# []匹配字符集中的一个字符
f1 = re.match(\'[abc]\', \'cba\').group()
print(f1)
f2 = re.match(\'[abc]\', \'zba\').group()
print(f2)  # 报错
f3 = re.match(\'[abc]2\', \'a\').group()
print(f3)  # 报错
f3 = re.match(\'[abc]2\', \'a2\').group()
print(f3)  # 可以用来匹配a2 b2 c2

# [^] 对字符集求反，也就是反操作 尖号必须在方括号的最前面
g1 = re.match(\'[^abc]3\', \'a3\').group()
print(g1)   # 报错
g2 = re.match(\'[^abc]3\', \'g3\').group()
print(g2)

# \\ 对紧跟其后的一个字符进行转义（如果没有r的话）
h1 = re.match(r\'5.6\', \'5.6\').group()
print(h1)
h2 = re.match(r\'5.6\', \'596\').group()
print(h2)
h3 = re.match(r\'5\\.6\', \'596\').group()
print(h3)  # 报错 \\. 表示.
h4 = re.match(r\'5\\.6\', \'5.6\').group()
print(h4)  # 可以运行

（3）代码re_examples--预定义匹配字符

# 预定义匹配字符集：可以同时匹配某个预定义字符集中的任意一个字符

# \\d 匹配0-9中的任意一个字符
k1 = re.match(r\'123\', \'123\').group()
print(k1)
k2 = re.match(r\'\\d\', \'123\').group()
print(k2)
k3 = re.match(r\'\\d\\d\\d\', \'123\').group()
print(k3)

# \\w 匹配字母或数字或下划线的任意一个字符
m1 = re.match(r\'\\w\', \'b123\').group()
print(m1)
m2 = re.match(r\'\\w\', \'S123\').group()
print(m2)
m3 = re.match(r\'\\w\', \'123\').group()
print(m3)
m4 = re.match(r\'\\w\', \'_123\').group()
print(m4)

# \\s 匹配空格、制表符、换行符、空白等（1个）
n1 = re.match(r\'\\s1\', \' 1\').group()
print(n1)
n2 = re.match(r\'\\s2\', \'\\t2\').group()
print(n2)
n3 = re.match(r\'\\s3\', \'\\n3\').group()
print(n3)

（4）代码re_examples--重复匹配

# 重复匹配
# # {n} 表示表达式重复的匹配n次
p1 = re.match(r\'\\d{4}\', \'1231\').group()
print(p1)

# {m, n}表示表达式至少重复m次， 至多重复n次
q1 = re.match(r\'\\d{3,4}-\\d{7,8}\', \'1234-1234567\').group()
print(q1)
print(re.match(r\'\\d{3,4}-\\d{7,9}\', \'12345-1234567\').group())
print(re.match(r\'\\d{3,4}-\\d{7,9}\', \'1234-1234567\').group())
print(re.match(r\'\\d{3,4}-\\d{6,7}\', \'1234-123456789\').group())

# {m,) 表示至少匹配m次 没有上限
ptn1 = r\'\\d{3,4}-\\d{6,}\'
s1 = re.match(ptn1, \'1234-123456789111111111111111111111111111111\').group()
print(s1)

# + 表示至少匹配1次 相当于{1，} a+b ab/aab/aaab
print(re.match(r\'w[a-z]\', \'wa\').group())
print(re.match(r\'w[a-z]+\', \'wa\').group())
print(re.match(r\'w[a-z]+\', \'wee\').group())
print(re.match(r\'w[a-z]+\', \'w\').group())  #  报错

# * 表示表达式出现0到任意次数
print(re.match(r\'w[a-z]*\', \'w\').group())
print(re.match(r\'w[a-z]*\', \'weeeeeeeee\').group())
print(re.match(r\'w[a-z]*\', \'1\').group())  # 报错

以上是关于python爬虫 Day 6的主要内容，如果未能解决你的问题，请参考以下文章

scrapy主动退出爬虫的代码片段(python3)

python-爬虫day1

python爬虫 Day 7+

python爬虫 Day 8

Day537.requests爬虫 -python

Day535.爬虫解析 -python