javascript 简单的NodeJS脚本，用于抓取网站并获取网址

Posted 2021-05-03

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了javascript 简单的NodeJS脚本，用于抓取网站并获取网址相关的知识，希望对你有一定的参考价值。

var Crawler = require("js-crawler");
var url = require('url');

if (process.argv.length <= 2) {
    console.log("Usage: " + __filename + " http://www.yahoo.com");
    process.exit(-1);
}
 
var crawler = new Crawler().configure({
  maxRequestsPerSecond: 10,
  maxConcurrentRequests: 10,
  depth: 99,
});

var url1 = process.argv[2];
var hostname = (url.parse(url1).hostname);

var parts = hostname.split('.');
var subdomain = parts.shift();
var upperleveldomain = parts.join('.');

crawler.crawl({
  url: url1,
  success: function(page) {
    if((url.parse(page.url).hostname).indexOf(upperleveldomain) > -1) {
    	console.log(page.url);
     };
  },
});

以上是关于javascript 简单的NodeJS脚本，用于抓取网站并获取网址的主要内容，如果未能解决你的问题，请参考以下文章