javascript 简单的NodeJS脚本,用于抓取网站并获取网址

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了javascript 简单的NodeJS脚本,用于抓取网站并获取网址相关的知识,希望对你有一定的参考价值。

var Crawler = require("js-crawler");
var url = require('url');

if (process.argv.length <= 2) {
    console.log("Usage: " + __filename + " http://www.yahoo.com");
    process.exit(-1);
}
 
var crawler = new Crawler().configure({
  maxRequestsPerSecond: 10,
  maxConcurrentRequests: 10,
  depth: 99,
});

var url1 = process.argv[2];
var hostname = (url.parse(url1).hostname);

var parts = hostname.split('.');
var subdomain = parts.shift();
var upperleveldomain = parts.join('.');

crawler.crawl({
  url: url1,
  success: function(page) {
    if((url.parse(page.url).hostname).indexOf(upperleveldomain) > -1) {
    	console.log(page.url);
     };
  },
});

以上是关于javascript 简单的NodeJS脚本,用于抓取网站并获取网址的主要内容,如果未能解决你的问题,请参考以下文章

从nodejs的html运行python脚本

nodeJS安装使用

nodejs入门之——初始nodejs

javascript 用于在节点#nodejs #javascript内设置react app的代码片段

javascript 用于下载(http)URI的NodeJS模块。

javascript NodeJS模块,用于通过myjson.com存储(公共)JSON