wget + JavaScript?

Posted

技术标签:

【中文标题】wget + JavaScript?【英文标题】:wget + JavaScript? 【发布时间】:2011-08-19 14:07:59 【问题描述】:

我有这个网页,它使用客户端 javascript 来格式化页面上的数据,然后再显示给用户。

是否有可能以某种方式使用wget 下载页面并使用某种客户端 JavaScript 引擎来格式化数据,就像它会在浏览器中显示一样?

【问题讨论】:

页面是否在同一台服务器上? wget 将在您的服务器上运行,这意味着它不是客户端... 不,这只是互联网上的一些随机网页。我不会在托管网页的同一台服务器上运行 wget。 【参考方案1】:

不使用 wget,因为我怀疑它包含任何形式的 JavaScript 引擎。但是,您可以使用 WebKit 来处理页面,从而处理输出。

使用这样的东西作为如何获取内容的基础:http://situated.wordpress.com/2008/06/04/take-screenshots-of-a-website-from-the-command-line/

【讨论】:

【参考方案2】:

您可以通过PhantomJS 之类的方式实现这一目标

您可以编写一个 phantomjs 脚本,该脚本将像浏览器一样加载页面,然后截屏或使用 JS 来检查页面并提取数据。

【讨论】:

请参阅command-line-browser-with-js-support 了解要使用的 phantomjs 脚本。 安装 PhantomJS 时要注意依赖关系。你也可以运行无头 Firefox。【参考方案3】:

这是一个简单的 phantomjs 小脚本,可以在网页上触发 javascript 并允许您将其拉到本地:

file: get.js

var page = require('webpage').create(),
  system = require('system'), address;

address = system.args[1];
page.scrollPosition=  top: 4000, left: 0  
page.open(address, function(status) 
  if (status !== 'success') 
    console.log('** Error loading url.');
   else 
    console.log(page.content);
  
  phantom.exit();
);

如下使用:$> phantomjs /path/to/get.js "http://www.google.com" > "google.html"

/path/tourlfilename 更改为您想要的。

【讨论】:

你会添加代码来处理document.cookielocation.href然后获取新的href吗?

以上是关于wget + JavaScript?的主要内容,如果未能解决你的问题,请参考以下文章

学习Javascript

JavaScript

JavaScript语法

JavaScript语句

JavaScript - 对象

JavaScript 快速入门