node 爬虫初尝试async控制并发量

Posted 2021-01-05 92xcd

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了node 爬虫初尝试async控制并发量相关的知识，希望对你有一定的参考价值。

var eventproxy = require(‘eventproxy‘);//并发控制

var async = require(‘async‘);//并发量控制

var express = require(‘express‘);

var utility = require(‘utility‘);//utility.md5(‘aaa‘)转md5

var superagent = require(‘superagent‘);//ajax请求

var cheerio = require(‘cheerio‘);//页面dom操作，jq

var app = new express();

var url = require(‘url‘);

var ep = new eventproxy();

var inspect = require(‘util‘).inspect;

app.get(‘/‘, function (req, res, next) {//本地页面访问路径,访问后执行 http://localhost:3000/

superagent.get(‘http://wiki.jikexueyuan.com/project/node-lessons/superagent-cheerio.html‘).end(function (err, sres) {//访问源网址拿到其中更多页面的网址

// 常规的错误处理

if (err) {

　　return next(err);

}

var urlArr = [];//需要获取的链接数组

var $ = cheerio.load(sres.text);//sres.text可获取页结构，通过cherrio转为jq对象

$(‘.detail-navlist-title a‘).each(function(i,e){

　　var href = $(e).attr(‘href‘);

　　urlArr.push(href);

})

//console.log(urlArr);

var fetchUlr = function(url,someCB){

　　superagent.get(url).end(function(err,sres){

　　　　//当全部执行完毕后null为true即 callback(true,sres.text),现在理解为mapLimit最后的函数function(err,result)

　　　　someCB(null,sres.text);

　　})

}

async.mapLimit(urlArr,5,function(url,someCB){//最大并发数为5

　　fetchUlr(url,someCB);//每次执行

},function(err, result){//执行urlArr次后执行

　　console.log(‘结束‘);

　　var datas = result.map(function(dom){

　　var $ = cheerio.load(dom);//每个页面的dom结构

　　return ({

　　　　title:$(‘.markdown-body h1‘).html()

　　})

res.setHeader(‘content-type‘, ‘text/html;charset=gb2312‘);//指定响应编码，否则乱码

res.send(datas);//发送到页面显示

})

});

}).listen(3000);

以上是关于node 爬虫初尝试async控制并发量的主要内容，如果未能解决你的问题，请参考以下文章

nodejs爬虫使用async控制并发写一个小说爬虫

linux驱动程序中的并发控制-8（完成量（completion））-50

服务端性能保障之流量并发控制方法

linux驱动程序中的并发控制-8（完成量（completion））-50