网络爬虫findall()正则(.*?)不起作用,无返回

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了网络爬虫findall()正则(.*?)不起作用,无返回相关的知识,希望对你有一定的参考价值。

headers =
'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (Khtml, like Gecko) Chrome/76.0.3809.132 Safari/537.36'

web_data = requests.get('https://bj.xiaozhu.com/',headers=headers)
prices = re.findall('<span class="result_price">¥<i>(.*?)</i>起/晚</span>',web_data.text)
for price in prices:
print(price)

你调试一下就能发现错误了。web_data.text 里根本没有  ¥ 这个符号。需要html 实体编码转换,正确的完整代码如下:

import requests,re,html

headers =

'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.132 Safari/537.36'

web_data = requests.get('https://bj.xiaozhu.com/',headers=headers)

res=html.unescape(web_data.text)

#print(res)

prices = re.findall('<span class="result_price">¥<i>(.*?)</i>起/晚</span>',res)

for price in prices:

    print(price)

考虑到垃圾知道吃格式和缩进,特附此图

参考技术A 你的正则表达式应该是src=不是sre=
另外,src属性可能不在<img>标签的末尾,所以不要有><
也就是说python正则表达式是: src="(.*?\.jpg)"
相应的语句是: reg=r'src="(.*?\.jpg)"'
参考技术B 因为你这个网址返回的静态html就没有¥信息,展示出来的¥是动态加载的

Python中正则表达式re.S的作用

今天入门爬虫的时候看到有这个一种写法:

pic_url=re.findall(\'"objURL":"(.*?)",\',html,re.S)
所以,今天来简单分析一下这个东西:re.S的作用

下面主要看一下这个代码:

 1 import re
 2 a = """sdfkhellolsdlfsdfiooefo:
 3 877898989worldafdsf"""
 4 b = re.findall(\'hello(.*?)world\',a)
 5 c = re.findall(\'hello(.*?)world\',a,re.S)
 6 print (\'b is \' , b)
 7 print (\'c is \' , c)
 8 
 9 
10 # 输出结果:
11 # b is []
12 # c is [\'lsdlfsdfiooefo:\\n877898989\']

 


注意:只有三单引或者三双引号的情况下,可以直接回车(\\n)换行写。其他双引号,单引号写法不同。这里不做其他解释。

在字符串a中,包含换行符\\n,在这种情况下:

如果不使用re.S参数,则只在每一行内进行匹配,如果一行没有,就换下一行重新开始。

而使用re.S参数以后,正则表达式会将这个字符串作为一个整体,在整体中进行匹配。
————————————————
版权声明:本文为CSDN博主「Xa_ier」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
原文链接:https://blog.csdn.net/weixin_42781180/article/details/81302806

以上是关于网络爬虫findall()正则(.*?)不起作用,无返回的主要内容,如果未能解决你的问题,请参考以下文章

爬虫常用正则re.findall 使用

Python中正则表达式re.S的作用

python爬虫笔记之re.compile.findall()

python爬虫 正则表达式 re.finditer 元字符 贪婪匹配 惰性匹配

Python爬虫编程思想(34):使用findall和finditer查找每一次出现的位置

正则补缺~~~|网络编程