BeautifulSoup 仅提取***标签[重复]
Posted
技术标签:
【中文标题】BeautifulSoup 仅提取***标签[重复]【英文标题】:BeautifulSoup extract top-level tags only [duplicate] 【发布时间】:2016-10-21 00:42:34 【问题描述】:我正在 Python 3.4 中使用 BeautifulSoup 进行网络抓取。
现在我在学习过程中遇到了一个问题: 我正在尝试从网页获取表格行,我正在使用 find_all() 来获取它们,但是在表格内部 - 有更多表格,其中包含表格行!如何仅获取 BeautifulSoup 中标签的***/第一级一般或特定元素?
# Retrieves all the row ('tr') tags in table
my_table.find_all('tr')
顺便说一句,这个问题是这个问题的重复(只有那里使用的编程语言是php):Extract only first level paragraphs from html
【问题讨论】:
【参考方案1】:显然find_all()方法中有一个名为recursive的参数,默认设置为True。
将其设置为 false,使该方法仅返回***元素。
find_all('tr', recursive=False)
【讨论】:
以上是关于BeautifulSoup 仅提取***标签[重复]的主要内容,如果未能解决你的问题,请参考以下文章
在 Python 中使用 BeautifulSoup 从脚本标签中提取文本
使用 BeautifulSoup 从 img 标签中提取 src 属性