使用 Scrapy 在 Python 中进行 Webrawling - 如何强制页面显示面包屑菜单?

Posted

技术标签:

【中文标题】使用 Scrapy 在 Python 中进行 Webrawling - 如何强制页面显示面包屑菜单?【英文标题】:Webrawling in Python with Scrapy - How to force page to show breadcrumb menu? 【发布时间】:2014-04-24 01:23:31 【问题描述】:

我正在使用 Scrapy 库在 Python 中构建一些网络爬虫。目标是从几家商店获取一些数据。

爬取时,有两种网站:

    目录网站,显示产品并链接到.. 产品站点,可以查看店铺不同产品的站点

现在,作为用户,当我从目录站点打开产品站点时,我会看到一个“面包屑式”菜单 - 这表明我在哪里。例如,如果商店是一家电子产品商店,而产品是 iPhone,则面包屑可能会显示:

“电子产品 -> 手机 -> iPhone -> iPhone 5S 64GB”

但是,只有当我遵循上述直接路径时才会发生这种情况。我的问题是,当我通过 Scrapy 抓取这些网站时,面包屑不会显示 - 即使使用爬虫我遵循上述路径(即我从电子网站开始,然后继续深入,直到我到达产品地点)。我什至修改了推荐人设置,但没有任何帮助。

还有其他方法,可以让这些面包屑菜单出现吗?

非常感谢您的意见。 :)

【问题讨论】:

您是否忽略了 cookie? 【参考方案1】:

该网站很可能将面包屑作为您忽略的 cookie 来实现。您需要将会话 cookie 从一个请求传递到后续请求。 This question 演示了在 scrapy 中使用 cookie。

【讨论】:

以上是关于使用 Scrapy 在 Python 中进行 Webrawling - 如何强制页面显示面包屑菜单?的主要内容,如果未能解决你的问题,请参考以下文章

使用scrapy进行12306车票查询

Python网络爬虫_Scrapy框架_2.logging模块的使用

使用scrapy框架来进行抓取的原因

使用 python-Scrapy 抓取动态内容

使用pycharm运行调试scrapy

python爬虫scrapy入门6:Scrapy中runspider和crawl的区别