网络爬虫findall()正则(.*?)不起作用,无返回
Posted
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了网络爬虫findall()正则(.*?)不起作用,无返回相关的知识,希望对你有一定的参考价值。
headers =
'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (Khtml, like Gecko) Chrome/76.0.3809.132 Safari/537.36'
web_data = requests.get('https://bj.xiaozhu.com/',headers=headers)
prices = re.findall('<span class="result_price">¥<i>(.*?)</i>起/晚</span>',web_data.text)
for price in prices:
print(price)
你调试一下就能发现错误了。web_data.text 里根本没有 ¥ 这个符号。需要html 实体编码转换,正确的完整代码如下:
import requests,re,html
headers =
'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.132 Safari/537.36'
web_data = requests.get('https://bj.xiaozhu.com/',headers=headers)
res=html.unescape(web_data.text)
#print(res)
prices = re.findall('<span class="result_price">¥<i>(.*?)</i>起/晚</span>',res)
for price in prices:
print(price)
参考技术A 你的正则表达式应该是src=不是sre=另外,src属性可能不在<img>标签的末尾,所以不要有><
也就是说python正则表达式是: src="(.*?\.jpg)"
相应的语句是: reg=r'src="(.*?\.jpg)"' 参考技术B 因为你这个网址返回的静态html就没有¥信息,展示出来的¥是动态加载的
Python中正则表达式re.S的作用
今天入门爬虫的时候看到有这个一种写法:
pic_url=re.findall(\'"objURL":"(.*?)",\',html,re.S)
所以,今天来简单分析一下这个东西:re.S的作用
下面主要看一下这个代码:
1 import re
2 a = """sdfkhellolsdlfsdfiooefo:
3 877898989worldafdsf"""
4 b = re.findall(\'hello(.*?)world\',a)
5 c = re.findall(\'hello(.*?)world\',a,re.S)
6 print (\'b is \' , b)
7 print (\'c is \' , c)
8
9
10 # 输出结果:
11 # b is []
12 # c is [\'lsdlfsdfiooefo:\\n877898989\']
注意:只有三单引或者三双引号的情况下,可以直接回车(\\n)换行写。其他双引号,单引号写法不同。这里不做其他解释。
在字符串a中,包含换行符\\n,在这种情况下:
如果不使用re.S参数,则只在每一行内进行匹配,如果一行没有,就换下一行重新开始。
而使用re.S参数以后,正则表达式会将这个字符串作为一个整体,在整体中进行匹配。
————————————————
版权声明:本文为CSDN博主「Xa_ier」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
原文链接:https://blog.csdn.net/weixin_42781180/article/details/81302806
以上是关于网络爬虫findall()正则(.*?)不起作用,无返回的主要内容,如果未能解决你的问题,请参考以下文章
python爬虫笔记之re.compile.findall()
python爬虫 正则表达式 re.finditer 元字符 贪婪匹配 惰性匹配