node小爬虫

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了node小爬虫相关的知识,希望对你有一定的参考价值。

const http = require(‘http‘);
const fs = require(‘fs‘);
const cheerio = require(‘cheerio‘);
const urlArr = [];
const imgArr = [];
for(var i=1 ; i<=33 ; i++){
    urlArr.push(‘http://www.imooc.com/course/list?page=‘+i);
}

function getImg() {
    urlArr.forEach(function(url) {
        http.get(url, function(res) {
            var html;
            res.on(‘data‘, function(data) {
                html += data;
            });
            res.on(‘end‘, function() {
                var $ = cheerio.load(html);
                $(‘.course-card‘).each(function(index, ele) {
                    var title = $(ele).find(‘.course-card-name‘).text();
                    var imgUrl = $(ele).find(‘.course-banner‘).attr(‘src‘);
                    var videoUrl = ‘http://www.imooc.com‘+$(ele).attr(‘href‘);
                    var text = title + videoUrl;
                    save_img(‘http:‘+imgUrl, title);
                    save_title(title, text);
                });
            });
        });
    });
}

function save_img(url, title) {
    http.get(url, function(res){
        var imgData = "";
        res.setEncoding("binary");
        res.on("data", function(chunk){
            imgData += chunk;
        });
        res.on("end", function(){
            fs.writeFile("node_download/img/"+title+".jpg", imgData, "binary", function(err){
                if(err){
                    console.log(err);
                }else {
                    console.log(title);
                }
            });
        });
    });
}

function save_title(title, text) {
    fs.writeFile("node_download/txt/"+title+".txt", text, ‘utf8‘,function(err){
        if(err){
            console.log(err);
        }else {
            console.log(title);
        }
    });
}

getImg();

 

以上是关于node小爬虫的主要内容,如果未能解决你的问题,请参考以下文章

Node.js JavaScript 片段中的跳过代码

Node.js(十三)——Promise重构爬虫代码

Node.js umei图片批量下载Node.js爬虫1.00

node爬虫入门

Node.js——HTTP小爬虫

基于node的简单爬虫