使用 Scrapy 在 Python 中进行 Webrawling - 如何强制页面显示面包屑菜单?
Posted
技术标签:
【中文标题】使用 Scrapy 在 Python 中进行 Webrawling - 如何强制页面显示面包屑菜单?【英文标题】:Webrawling in Python with Scrapy - How to force page to show breadcrumb menu? 【发布时间】:2014-04-24 01:23:31 【问题描述】:我正在使用 Scrapy 库在 Python 中构建一些网络爬虫。目标是从几家商店获取一些数据。
爬取时,有两种网站:
-
目录网站,显示产品并链接到..
产品站点,可以查看店铺不同产品的站点
现在,作为用户,当我从目录站点打开产品站点时,我会看到一个“面包屑式”菜单 - 这表明我在哪里。例如,如果商店是一家电子产品商店,而产品是 iPhone,则面包屑可能会显示:
“电子产品 -> 手机 -> iPhone -> iPhone 5S 64GB”
但是,只有当我遵循上述直接路径时才会发生这种情况。我的问题是,当我通过 Scrapy 抓取这些网站时,面包屑不会显示 - 即使使用爬虫我遵循上述路径(即我从电子网站开始,然后继续深入,直到我到达产品地点)。我什至修改了推荐人设置,但没有任何帮助。
还有其他方法,可以让这些面包屑菜单出现吗?
非常感谢您的意见。 :)
【问题讨论】:
您是否忽略了 cookie? 【参考方案1】:该网站很可能将面包屑作为您忽略的 cookie 来实现。您需要将会话 cookie 从一个请求传递到后续请求。 This question 演示了在 scrapy 中使用 cookie。
【讨论】:
以上是关于使用 Scrapy 在 Python 中进行 Webrawling - 如何强制页面显示面包屑菜单?的主要内容,如果未能解决你的问题,请参考以下文章