Python Web Scraping with Beautiful Soup - 遇到麻烦

Posted 2023-03-29

技术标签:

【中文标题】Python Web Scraping with Beautiful Soup - 遇到麻烦【英文标题】：Python Web Scraping with Beautiful Soup - Having Trouble 【发布时间】：2015-10-05 00:19:34 【问题描述】：

我正在使用 BeautifulSoup 尝试从 CNN 主页上的不同主题中提取顶部链接或仅顶部标题。我似乎在这里遗漏了一些东西，希望能得到一些帮助。我之前已经设法想出了一些网络爬虫，但它总是要经过很多阻力，而且是一场艰苦的战斗。

在我看来，我需要的链接最终存储在这样的地方：

<article class="cd cd--card cd--article cd--idx-1 cd--extra-small cd--has-siblings cd--media__image" data-vr-contentbox="/2015/10/02/travel/samantha-brown-travel-channel-feat/index.html" data-eq-pts="xsmall: 0, small: 300, medium: 460, large: 780, full16x9: 1100" data-eq-state="small">

我可以在 data-vr-contentbox 之后获取该链接并将其附加到 www.cnn.com 的末尾，它会将我带到我需要的页面。我的问题实际上是抓住了那个链接。我尝试了各种形式来抓住它们。我当前的迭代如下：

r = requests.get("http://www.cnn.com/")

data = r.text
soup = BeautifulSoup(data)

for link in soup.findAll("article"):
    test = link.get("data-vr-contentbox")
    print(test)

我的问题是它似乎只抓住了我真正需要的少数东西。我只看到两篇来自政治的文章，没有一篇来自旅行等。我希望能在解决这个问题方面得到一些帮助。我正在寻找每个主题下的所有链接。现在我只是将政治或旅行作为开始的基础。

特别是，我希望能够指定主题（技术、旅游、政治等）并抓住这些头条新闻。我是否可以简单地获取链接并使用它们从相应页面获取标题，或者只是从这里获取标题......我似乎也做不到。能够一次查看单个主题中的所有内容会很好，但要找到缩小范围的方法并不是很简单。

示例文章是“ios 9 的 Wi-Fi Assist 功能成本高昂”，可以在标签中找到。我希望能够在主页上的技术标题下找到所有文章，并隔离这些标签以获取标题。该标题的标签如下所示：

<div class="strip-rec-link-title ob-tcolor">IOS 9's Wi-Fi Assist feature costly</div>

但我不知道如何做这两件事。我什至无法抓住标题，尽管当我尝试这个时它在标签内：

for link in soup.findAll("div"):
    print("")
    print(link)

我觉得我在某个地方有一个根本性的误解，尽管我之前已经设法做了一些刮板。

【问题讨论】：

【参考方案1】：

我的猜测是 cnn.com 网站有一堆 javascript，在 beautifulsoup 读取后会呈现大量内容。我打开 cnn.com 并在 safari 中查看源代码，发现有 197 个 data-vr-contentbox 实例。然而，当我通过 beautifulsoup 运行它并将其丢弃时，只有 13 个 data-vr-contentbox 实例。

那里有很多关于处理它的帖子。可以从本题使用的方法入手：Scraping Javascript driven web pages with PyQt4 - how to access pages that need authentication?

【讨论】：

以上是关于Python Web Scraping with Beautiful Soup - 遇到麻烦的主要内容，如果未能解决你的问题，请参考以下文章