如何访问亚马逊类别列表的第 101 页

Posted

技术标签:

【中文标题】如何访问亚马逊类别列表的第 101 页【英文标题】:How do you access the 101st page of an amazon category list 【发布时间】:2013-04-17 20:10:04 【问题描述】:

我想访问亚马逊内给定类别中的所有项目,但似乎类别页面是通过搜索生成的。在 URL 中碰撞页面搜索参数只会将您带到第 100 页。有什么办法可以克服吗?这是一个示例url for books

【问题讨论】:

【参考方案1】:

使用 ajax XHR 调用动态加载内容。

长话短说:

打开浏览器开发工具 打开网络标签 点击亚马逊页面链接 请参阅 XHR 请求将发送到 http://www.amazon.com/mn/search/ajax/ref=sr_pg_3... - 这是您应该在 Scrapy 蜘蛛中调用的内容(返回 JSON)

所以,基本上,你应该只调用这个 XHR 请求 100 次(或者看看你是否可以将它们全部合二为一)。

有用的链接:

Can scrapy be used to scrape dynamic content from websites that are using AJAX? Pagination using scrapy

注意事项:

亚马逊将搜索结果限制为 100 页 你可以试试亚马逊API 而不是直接抓取网站。看 Amazon API library for Python?。

希望对您有所帮助。

【讨论】:

感谢您的提示,这很有帮助。看看你分享的那两个链接。至于 xhr 请求,它看起来很讨厌,因为 JSON 结果实际上包含页面的 html。我尝试增加两个参数 page=101 和 ref=sr_pg_100,但结果为空。知道其余参数的用途吗? 它是特定于这个 ajax 数据提供者的,你可能只需要page,也可能是sort。我在答案中添加了一些注释,看看是否有帮助。 好久没看了。你有什么吗?

以上是关于如何访问亚马逊类别列表的第 101 页的主要内容,如果未能解决你的问题,请参考以下文章

如何创建新的亚马逊AWS访问密钥

如何使用XShell登录亚马逊EC2云服务器

亚马逊接口NextToken分页调用时AuthFailure问题的解决

亚马逊接口NextToken分页调用时AuthFailure问题的解决

亚马逊接口NextToken分页调用时AuthFailure问题的解决

亚马逊接口NextToken分页调用时AuthFailure问题的解决