javascript加载值后Nodejs抓取网站

Posted

技术标签:

【中文标题】javascript加载值后Nodejs抓取网站【英文标题】:Nodejs scraping website after javascript has loaded the values 【发布时间】:2012-03-11 13:51:08 【问题描述】:

可能是关于 nodejs/jsdom 的新手问题

我正在尝试使用 node.js 抓取网站。我正在使用 jsdom 和 jquery 来获取 html 并解析所需的内容。但是,不知何故,我得到的值不是网站上显示的值。 基本上这些值是由 javascript 动态更改的,我想要这些值。我使用 nodejs/jsdom 进行抓取的全部原因是 js 将被执行,并且我在该事件之后获得了值。

有没有办法告诉 jsdom 等到 javascript 执行?还是我错了?我在这件事上搜索了很多。

【问题讨论】:

【参考方案1】:

你最好使用类似 casperjs http://casperjs.org/ 的东西。它是一个基于 phantomjs 的测试工具。它基本上就像在 webkit 浏览器中打开页面一样,只是没有 GUI。你可以写类似的东西。我认为它不适用于节点,但运行 casper 脚本并将输出通过管道传回节点应该很容易。:

var casper = require('casper').create(
    loadImages: true,
    loadPlugins: true,
    verbose: true,
    //logLevel: 'info',
    clientScripts: [
        'jquery-1.7.1.min.js',
    ],
    viewportSize: 
        width: 1366,
        height: 768,
    ,
    pageSettings: 
        javascriptEnabled: true,
        userAgent: 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/536.5 (KHTML, like Gecko) Chrome/19.0.1084.9 Safari/536.5',
    ,
);

casper.start(url);

casper.thenEvaluate(function () 
    //javascript code to run in the scope of the page
);

【讨论】:

【参考方案2】:

首先,你是如何使用 jsdom 的?显然,jsdom.env 不会执行 DOM 中的脚本,只会执行您在调用 jsdom.env 时添加的脚本。如果你想执行脚本,我认为你应该使用jsdom.jsdom

其次,您需要指定一个onload 处理程序。这应该在文档准备好后执行,并且希望任何脚本都会根据您的喜好更改 DOM。

类似这样的:

var jsdom = require('jsdom').jsdom
  , document = jsdom(html)
  , window = document.createWindow();

document.onload = function() 
  // Do your stuff

【讨论】:

以上是关于javascript加载值后Nodejs抓取网站的主要内容,如果未能解决你的问题,请参考以下文章

网络抓取新值后,Mongodb 集合未正确更新

使用javascript屏幕延迟抓取网站[关闭]

如何在网站页面完全加载时抓取它(js,css all loaded)

在获取请求中提供授权时,在需要授权的nodeJS中抓取网站?

如何使用nodejs做爬虫程序

实例:使用puppeteer headless方式抓取JS网页