使用javascript屏幕延迟抓取网站[关闭]

Posted

技术标签:

【中文标题】使用javascript屏幕延迟抓取网站[关闭]【英文标题】:Scraping sites with javascript screen delay [closed] 【发布时间】:2011-06-20 11:59:21 【问题描述】:

我正在尝试抓取一个有瞬间 javascript 延迟的网站。

我目前正在使用 python 进行抓取。每当我“获取”页面时,javascript 延迟还没有完成,并且还没有完全加载新的 dom。

我要如何抓取这样的 pge?

【问题讨论】:

您能否发布您想要抓取的网址,或者最好是一个重现该行为的最小示例? 您是使用 urllib[2] 来获取页面,还是使用某些浏览器? dom 加载实际上是做什么的? 我为此目的构建了 SnapSearch。 snapsearch.io 专为 JS、html5 和 SPA 应用程序的 SEO 设计。 【参考方案1】:

您可以扩展 Mozilla 来构建一个网络爬虫,它可以利用网络浏览器的全部功能。在加载所有数据并构建 DOM 之后,您可以使用 XSLT 从 DOM 中提取所需的数据。如果 DOM 在初始加载后动态更改,您可以采取一些方法来等待更改。访问http://www.gooseeker.com 了解更多信息。 GooSeeker 为所有人免费发布了一个类似的工具。大多数代码都是 javascript 和可读的,您可以从中找到它的运行方式。

【讨论】:

以上是关于使用javascript屏幕延迟抓取网站[关闭]的主要内容,如果未能解决你的问题,请参考以下文章

网页抓取:自动化按钮点击[关闭]

屏幕刮板如何工作? [关闭]

屏幕抓取 Python 中基于 Javascript 的网页

如何使用延迟python代码更慢地抓取[重复]

如何使用 javascript 创建 HTML 文件 [关闭]

初学者通过 Python 学习屏幕抓取的最佳方式 [关闭]