javascript 简单的NodeJS脚本,用于抓取网站并获取网址
Posted
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了javascript 简单的NodeJS脚本,用于抓取网站并获取网址相关的知识,希望对你有一定的参考价值。
var Crawler = require("js-crawler");
var url = require('url');
if (process.argv.length <= 2) {
console.log("Usage: " + __filename + " http://www.yahoo.com");
process.exit(-1);
}
var crawler = new Crawler().configure({
maxRequestsPerSecond: 10,
maxConcurrentRequests: 10,
depth: 99,
});
var url1 = process.argv[2];
var hostname = (url.parse(url1).hostname);
var parts = hostname.split('.');
var subdomain = parts.shift();
var upperleveldomain = parts.join('.');
crawler.crawl({
url: url1,
success: function(page) {
if((url.parse(page.url).hostname).indexOf(upperleveldomain) > -1) {
console.log(page.url);
};
},
});
以上是关于javascript 简单的NodeJS脚本,用于抓取网站并获取网址的主要内容,如果未能解决你的问题,请参考以下文章
从nodejs的html运行python脚本
nodeJS安装使用
nodejs入门之——初始nodejs
javascript 用于在节点#nodejs #javascript内设置react app的代码片段
javascript 用于下载(http)URI的NodeJS模块。
javascript NodeJS模块,用于通过myjson.com存储(公共)JSON