python,提取HTML中左右没有标签的内容,怎么提取?

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了python,提取HTML中左右没有标签的内容,怎么提取?相关的知识,希望对你有一定的参考价值。

我一般使用BeautifulSoup,还是比较简单的

soup=BeaitifulSoup(html,'html.parser')

要找到某各元素使用find_all方法就行

for div in soup.find_all('div'):

但是经常会遇到网站有反爬的设置,比如子结点中含有换行符,只要写个函数去掉子结点间的换行符就行追问

有没有删除标签及其内容的方法

参考技术A 我一般使用BeautifulSoup,还是比较简单的
soup=BeaitifulSoup(html,'html.parser')
要找到某各元素使用find_all方法就行
for div in soup.find_all('div'):
但是经常会遇到网站有反爬的设置,比如子结点中含有换行符,只要写个函数去掉子结点间的换行符就行
参考技术B 下面的回答都是文不对题,瞎几把回答,误导人!!这一句话根本没有标签,何来用标签方法获取? 这个没标签的,其实有隐藏的r\n\,需要用正则表达式来获取。我也遇到了同样的情况,正在爬取。 参考技术C 直接使用get_text()方法就行了

Python爬虫怎么循环截取html标签中间的内容?

要循环匹配,截取一个页面里面的所有所需求的数据,定位前后两个html标签,然后获取中间的内容!

如果是中间的数据直接就用bs4最简单

from bs4 import BeautifulSoup

#这里是请求过来的额数据处理,提取标签

html = BeautifulSoup(response.text, 'html.parser')

 body = html.body       # 获取body部分数据

div = body.find("div",'id','today') #用find去找div标签,id叫 today的标签里面的数据

就可以了

如果要提取标签内容比如value的值

div = body.find("input",id='hidden_title')['value']

参考技术A 正则表达式匹配
或者xpath进行匹配追问

能打个代码案例给我吗

以上是关于python,提取HTML中左右没有标签的内容,怎么提取?的主要内容,如果未能解决你的问题,请参考以下文章

如何在 UITableViewCell 中左对齐或右对齐 UILabel

有没有办法在不使用 jQuery UI 和 jQuery Mobile 的情况下在 jQuery 中左右滑动 [重复]

HQL中左连接,右连接内连接

小 div在大 div中左右上下居中

Android Layout在水平布局中左右对齐

Python中BeautifulSoup中对HTML标签的提取