正则表达式 查找网页源代码 提取指定内容

Posted xkdn

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了正则表达式 查找网页源代码 提取指定内容相关的知识,希望对你有一定的参考价值。

import requests
import re

txt=‘<a href="https://www.vgirls.com/13404.html" class="list-title text-md h-2x" target="_blank">想把夏日的阳光寄给冬日的你</a>‘
urla=re.findall(‘<a href="(.*?)" class="list-title text-md h-2x" target="_blank">.*?</a>‘,txt)
for i in urla:
print(i)
urlb=re.findall(‘<a href=".*?" class="list-title text-md h-2x" target="_blank">(.*?)</a>‘,txt)
for i in urlb:
print(i)
结果:

https://www.vgirls.com/13404.html
想把夏日的阳光寄给冬日的你

总结:

1。根据网页源代码找到关键位置,主要分析相关同一级别的源代码的共同点

2。找到关键如txt的内容,复制下来
3。粘贴到空白处:urla=re.findall(‘   ‘,txt)
4.需要选择出来的部分去掉改成 (.*?);不想选择但内容又变化的去掉改成  .?*,一定不能加括号

5。所以第一个只提取超级连接的地址;第二个只提取“标签A中的文字"

以上是关于正则表达式 查找网页源代码 提取指定内容的主要内容,如果未能解决你的问题,请参考以下文章

用正则表达式提取wps内容

正则表达式实战

C#怎么用正则表达式提取链接和图片标签的属性

python常用re正则表达式大全,查找指定内容

通过正则表达式python爬取指定网页中的参数内容,保存到指定数据文件中

C# 正则表达式提取指定文本内的内容