Python爬虫怎么循环截取html标签中间的内容?

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Python爬虫怎么循环截取html标签中间的内容?相关的知识,希望对你有一定的参考价值。

要循环匹配,截取一个页面里面的所有所需求的数据,定位前后两个html标签,然后获取中间的内容!

如果是中间的数据直接就用bs4最简单

from bs4 import BeautifulSoup

#这里是请求过来的额数据处理,提取标签

html = BeautifulSoup(response.text, 'html.parser')

 body = html.body       # 获取body部分数据

div = body.find("div",'id','today') #用find去找div标签,id叫 today的标签里面的数据

就可以了

如果要提取标签内容比如value的值

div = body.find("input",id='hidden_title')['value']

参考技术A 正则表达式匹配
或者xpath进行匹配追问

能打个代码案例给我吗

Python+Selenium+PhantomJs爬虫 怎么抓取弹出新标签页的内容

参考技术A 在工程中新建一个Python Package(包),右键点击src, New>PydevPackage,选择源文件路径及输入包名: 在_init_.py,输入print (“Hello World”),按F9即可看到输出结果,说明开发环境安装成功!本回答被提问者采纳

以上是关于Python爬虫怎么循环截取html标签中间的内容?的主要内容,如果未能解决你的问题,请参考以下文章

Python爬虫怎么爬取左右没有标签的内容

python,提取HTML中左右没有标签的内容,怎么提取?

python爬虫,用find_all()找到某一标签后,怎么获取下面数个同名子标签的内容

python 正则表达式如何截取字符串中间的内容

java爬虫怎么抓取js动态生成的内容

java爬虫抓取指定数据