BeautifulSoup 仅提取***标签[重复]

Posted

技术标签:

【中文标题】BeautifulSoup 仅提取***标签[重复]【英文标题】:BeautifulSoup extract top-level tags only [duplicate] 【发布时间】:2016-10-21 00:42:34 【问题描述】:

我正在 Python 3.4 中使用 BeautifulSoup 进行网络抓取。

现在我在学习过程中遇到了一个问题: 我正在尝试从网页获取表格行,我正在使用 find_all() 来获取它们,但是在表格内部 - 有更多表格,其中包含表格行!如何获取 BeautifulSoup 中标签的***/第一级一般或特定元素?

# Retrieves all the row ('tr') tags in table
my_table.find_all('tr')

顺便说一句,这个问题是这个问题的重复(只有那里使用的编程语言是php):Extract only first level paragraphs from html

【问题讨论】:

【参考方案1】:

显然find_all()方法中有一个名为recursive的参数,默认设置为True

将其设置为 false,使该方法仅返回***元素。

find_all('tr', recursive=False)

【讨论】:

以上是关于BeautifulSoup 仅提取***标签[重复]的主要内容,如果未能解决你的问题,请参考以下文章

使用 BeautifulSoup 提取标签之间的文本

在 Python 中使用 BeautifulSoup 从脚本标签中提取文本

使用 BeautifulSoup 从 img 标签中提取 src 属性

如何仅使用BeautifulSoup和Python删除包含空格的HTML标记

使用 BeautifulSoup 提取标签中的内容

python 之 BeautifulSoup标签查找与信息提取