使用 Selenium Python 解析 HTML 和读取 HTML 表
Posted
技术标签:
【中文标题】使用 Selenium Python 解析 HTML 和读取 HTML 表【英文标题】:Parse HTML and Read HTML Table with Selenium Python 【发布时间】:2017-05-04 00:56:28 【问题描述】:我正在将我的一些网络抓取代码从 R 转换为 Python(我无法让 geckodriver 与 R 一起使用,但它正在与 Python 一起使用)。无论如何,我正在尝试了解如何使用 Python 解析和读取 html 表。快速背景,这是我的 R 代码:
doc <- htmlParse(remDr$getPageSource()[[1]],ignoreBlanks=TRUE, replaceEntities = FALSE, trim=TRUE, encoding="UTF-8")
WebElem <- readHTMLTable(doc, stringsAsFactors = FALSE)[[7]]
我会将 HTML 页面解析为 doc 对象。然后我会从doc[[1]]
开始,然后遍历更高的数字,直到看到我想要的数据。在这种情况下,我到达doc[[7]]
并看到了我想要的数据。然后我会读取该 HTML 表并将其分配给 WebElem 对象。最终我会把它变成一个数据框并使用它。
所以我在 Python 中所做的是这样的:
html = None
doc = None
html = driver.page_source
doc = BeautifulSoup(html)
然后我开始玩doc.get_text
,但我真的不知道如何获得我想看到的数据。我想看到的数据就像一个 10x10 矩阵。当我使用 R 时,我只会使用 doc[[7]]
并且该矩阵几乎是完美的结构,我可以将其转换为数据帧。但是,我似乎无法用 Python 做到这一点。任何建议将不胜感激。
更新:
我已经能够使用 Python 获得我想要的数据——我关注了这个博客,使用 Python 创建了一个数据框:Python Web-Scraping。这是我们在该博客中抓取的网站:Most Popular Dog Breeds。在该博客文章中,您必须逐个处理元素,创建一个字典,遍历表的每一行并将数据存储在每一列中,然后您就可以创建一个数据框。
使用 R,我唯一需要编写的代码是:
doc <- htmlParse(remDr$getPageSource()[[1]],ignoreBlanks=TRUE, replaceEntities = FALSE, trim=TRUE, encoding="UTF-8")
df <- as.data.frame(readHTMLTable(doc, stringsAsFactors = FALSE)
这样,我就有了一个非常漂亮的数据框,我只需要调整列名和数据类型——它看起来像这样,只是代码:
NULL.V1 NULL.V2 NULL.V3 NULL.V4
1 BREED 2015 2014 2013
2 Retrievers (Labrador) 1 1 1
3 German Shepherd Dogs 2 2 2
4 Retrievers (Golden) 3 3 3
5 Bulldogs 4 4 5
6 Beagles 5 5 4
7 French Bulldogs 6 9 11
8 Yorkshire Terriers 7 6 6
9 Poodles 8 7 8
10 Rottweilers 9 10 9
在 Python 中是否没有可用的东西使这更简单,或者这只是在 R 中更简单,因为 R 是为数据帧构建的(至少在我看来是这样,但我可能是错的)?
【问题讨论】:
最重要的建议 - 始终将 url 添加到您的数据中。每个页面都不同,我们必须查看 HTML 才能给出任何建议。 嗨@furas,我会添加它,但它是一个私人网址。我知道这很困难。在我的帖子中创建一个类似的矩阵对我有帮助吗? 我会在公共网站上寻找类似的东西并在今晚更新我的帖子,谢谢@furas 我无法与 R 进行任何比较,因为我现在无法让 RSelenium 工作。基本上,我为获取所需数据所做的是将列标题解析为具有空白值的字典,然后将这些值附加到另一个解析中。然后将其保存为数据框。似乎使用 R,我能够像上面解释的那样引用一个 html 表位置,并且它几乎已经是数据帧格式。当我可以让 RSelenium 再次工作时——当 RSelenium 有更新时,我将保留这个问题并澄清/回答这个问题。 正如我之前所说:添加一些您想要解析的示例数据/HTML(它不必是链接,而是简单的 HTML/文本)。 R 和 Pandas 并不相同,因此可能需要不同的解决方案,并且每个页面都不同,因此每个页面/示例可能需要不同的解决方案。你在 R 中如何做并不重要,最重要的是你拥有的数据——我们必须看到它。 【参考方案1】:首先,阅读Selenium with Python,您将大致了解 Selenium 如何与 Python 一起工作。
如果你想在 Python 中定位元素,有两种方法:
-
使用Selenium API,可以参考Locating Elements
使用 BeautifulSoup,有不错的文档可以阅读
BeautifulSoupDocumentation
【讨论】:
【参考方案2】:好的,经过一番深入研究,我觉得我找到了一个很好的解决方案——与 R 相匹配。如果您正在查看上面链接中提供的 HTML,Dog Breeds,并且您正在运行 Web 驱动程序该链接您可以运行以下代码:
tbl = driver.find_element_by_xpath("//html/body/main/article/section[2]/div/article/table").get_attribute('outerHTML')
df = pd.read_html(tbl)
那么你只需要几行代码就可以看到一个非常漂亮的数据框:
In [145]: df
Out[145]:
[ 0 1 2 3
0 BREED 2015 2014 2013.0
1 Retrievers (Labrador) 1 1 1.0
2 German Shepherd Dogs 2 2 2.0
3 Retrievers (Golden) 3 3 3.0
4 Bulldogs 4 4 5.0
5 Beagles 5 5 4.0
我觉得这比按照博客建议的那样处理标签、创建字典和遍历每一行数据要容易得多。这可能不是最正确的做事方式,我是 Python 新手,但它可以快速完成工作。我希望这可以帮助一些网络爬虫。
【讨论】:
import pandas as pd
【参考方案3】:
tbl = driver.find_element_by_xpath("//html/body/main/article/section[2]/div/article/table").get_attribute('outerHTML')
df = pd.read_html(tbl)
它工作得很好。
【讨论】:
以上是关于使用 Selenium Python 解析 HTML 和读取 HTML 表的主要内容,如果未能解决你的问题,请参考以下文章
如何在 python 中使用 Selenium 和 Beautifulsoup 解析网站? [关闭]
使用 Selenium Python 解析 HTML 和读取 HTML 表
使用 selenium python 使用复合类解析 HTML 内容