如何访问亚马逊类别列表的第 101 页
Posted
技术标签:
【中文标题】如何访问亚马逊类别列表的第 101 页【英文标题】:How do you access the 101st page of an amazon category list 【发布时间】:2013-04-17 20:10:04 【问题描述】:我想访问亚马逊内给定类别中的所有项目,但似乎类别页面是通过搜索生成的。在 URL 中碰撞页面搜索参数只会将您带到第 100 页。有什么办法可以克服吗?这是一个示例url for books
【问题讨论】:
【参考方案1】:使用 ajax XHR 调用动态加载内容。
长话短说:
打开浏览器开发工具 打开网络标签 点击亚马逊页面链接 请参阅 XHR 请求将发送到http://www.amazon.com/mn/search/ajax/ref=sr_pg_3...
- 这是您应该在 Scrapy 蜘蛛中调用的内容(返回 JSON)
所以,基本上,你应该只调用这个 XHR 请求 100 次(或者看看你是否可以将它们全部合二为一)。
有用的链接:
Can scrapy be used to scrape dynamic content from websites that are using AJAX? Pagination using scrapy注意事项:
亚马逊将搜索结果限制为 100 页 你可以试试亚马逊API 而不是直接抓取网站。看 Amazon API library for Python?。希望对您有所帮助。
【讨论】:
感谢您的提示,这很有帮助。看看你分享的那两个链接。至于 xhr 请求,它看起来很讨厌,因为 JSON 结果实际上包含页面的 html。我尝试增加两个参数 page=101 和 ref=sr_pg_100,但结果为空。知道其余参数的用途吗? 它是特定于这个 ajax 数据提供者的,你可能只需要page
,也可能是sort
。我在答案中添加了一些注释,看看是否有帮助。
好久没看了。你有什么吗?以上是关于如何访问亚马逊类别列表的第 101 页的主要内容,如果未能解决你的问题,请参考以下文章
亚马逊接口NextToken分页调用时AuthFailure问题的解决
亚马逊接口NextToken分页调用时AuthFailure问题的解决