Nodejs理想论坛帖子爬虫1.02

Posted xiandedanteng

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Nodejs理想论坛帖子爬虫1.02相关的知识,希望对你有一定的参考价值。

在1.01版本中,我发现各回调函数找到数据后再插入数据库有个竞争问题不好解决,如果等所有回调都完成也没有好的处理方法,因为启动不止一处启动了新的TopicSpider实例。

于是我决定把读数据和写DB分开,爬虫负责前一部分,insertDB.js负责后一部分。

这样做避免了爬虫写DB竞争和判断所有回调都结束的难点问题。

而insertDB.js中,等待所有读文件的回调都结束是有办法的,那就是并行化控制,毕竟读各个文件比较简单,易于用task控制。

下面是爬虫代码:

//======================================================
// 理想论坛帖子下载爬虫1.02
// 目标网址:http://www.55188.com/forum-8-1.html
// 已经将获得数据和插入数据分开
// 此文件代码负责找到数据并存入文件
// 插入数据由insertDB.js负责
// 2018年4月16日
//======================================================

// 内置http模块
var http=require("http");

// 用于解析gzip网页(ungzip,https得到的网页是用gzip进行压缩的)
var zlib = require(‘zlib‘); 

// 内置文件处理模块
var fs=require(‘fs‘);

// 用于转码。非Utf8的网页如gb2132会有乱码问题,需要iconv将其转码
var iconv = require(‘iconv-lite‘);

// cheerio模块,提供了类似jQuery的功能,用于从HTML code中查找图片地址和下一页
var cheerio = require("cheerio");

// 请求参数,JSON格式,http和https都有使用
var options;

// request请求
var req;

// 爬虫总数
var spiderCount=0;

// 完成任务的爬虫数
var spiderFinished=0;

// 爬虫获得的全部信息
var allInfos=[];

// 存放文件的目录
var folder="";

//-------------------------------
// 爬虫类
// index:爬虫序号
// title:帖子标题
// url:帖子地址
// pageNo:帖子页码
//-------------------------------
function TopicSpider(title,url){
    var obj=new Object;
    spiderCount++;
    obj.index=spiderCount;    // 序号
    obj.title=title;        // 标题
    obj.url=url;            // 地址
    obj.pageNo=1;            // 页码

    obj.crawl=function(){
        // 得到hostname和path
        var currUrl=this.url.replace("http://","");
        var pos=currUrl.indexOf("/");
        var hostname=currUrl.slice(0,pos);    
        var path=currUrl.slice(pos);    
        pos=currUrl.lastIndexOf("/");
        var dir="http://"+currUrl.slice(0,pos);    
        
        // 初始化options  
        options={
            hostname:hostname,
                port:80,
                path:path,// 子路径
              method:‘GET‘,        
        };    

        // 请求并处理response
        req=http.request(options,function(resp){
            var html = [];                

            resp.on("data", function(data) {
                html.push(data);
            })
            resp.on("end", function() {
                
                var buffer = Buffer.concat(html);
                var body = iconv.decode(buffer,‘gb2312‘);
                var $ = cheerio.load(body);    
                var infos=[];// 获得的发帖人信息

                // 得到下一页信息
                var nexturl=null;
                $(".pages_btns .pages strong").each(function(index,element){
                    
                    if(nexturl==null){
                        obj.pageNo=$(element).text();
                        
                        var nextNode=$(element).next();
                        if(nextNode && nextNode.attr("href")){
                            // 如有下一页再起新爬虫
                            nexturl=‘http://www.55188.com/‘+nextNode.attr("href");

                            var nextspider=new TopicSpider(obj.title,nexturl);
                            nextspider.crawl();
                        }
                    }
                })

                // 得到发帖人信息
                $(".postinfo").each(function(index,element){                    
                    var content=$(element).text();
                    content=content.replace(/\\s+/g,‘ ‘);// 空白字符替换为一个空格
                    var arr=content.split(" ");// 以空格劈分
                    
                    if(arr.length==7){
                        info={‘url‘:obj.url,
                              ‘title‘:obj.title,
                              ‘楼层‘:arr[1],
                              ‘作者‘:arr[2].replace(‘只看:‘,‘‘),
                              ‘日期‘:arr[4],
                              ‘时间‘:arr[5]};
                        infos.push(info);
                        //console.log(‘info=‘+info);
                    }else if(arr.length==8){
                        info={‘url‘:obj.url,
                              ‘title‘:obj.title,
                              ‘楼层‘:arr[1],
                              ‘作者‘:arr[2].replace(‘只看:‘,‘‘),
                              ‘日期‘:arr[5],
                              ‘时间‘:arr[6]};
                        infos.push(info);
                        //console.log(‘info=‘+info);
                    }
                })

                // 信息获取结束,打印出爬虫信息
                var msg=‘‘;
                msg+=‘小爬序号:‘+obj.index+‘\\n‘;
                msg+=‘小爬爬取的帖子标题:‘+obj.title+‘\\n‘;
                msg+=‘小爬爬取的页码:‘+obj.pageNo+‘\\n‘;
                msg+=‘小爬爬取的帖子地址:‘+obj.url+‘\\n‘;
                msg+=‘小爬获取的信息数量:‘+infos.length+‘\\n‘;                
                obj.savefile(obj.index,infos); // 存文件
                msg+=‘小爬#:‘+obj.index+‘任务完成\\n‘;
                console.log(msg);                

                // 计算比例
                spiderFinished++;
                var percent=(spiderFinished*100/spiderCount).toFixed(2);
                console.log(‘\\n启动的爬虫数:‘+spiderCount+‘,完成任务的爬虫数:‘+spiderFinished+‘,完成比例:‘+percent+"%");
                
            }).on("error", function(err) {
                console.log(coloredText(‘请求失败,异常为‘+err,‘red‘));  
            })
        });

        // 超时处理
        req.setTimeout(7500,function(){
            req.abort();
        });

        // 出错处理
        req.on(‘error‘,function(err){
            console.log(coloredText(‘请求发生错误‘+err,‘red‘));  
        });

        // 请求结束
        req.end();    
        
    };

    // 保存文件
    obj.savefile=function(index,infos){
        var text=JSON.stringify(infos);

        filename=‘./‘+folder+‘/‘+index+‘.dat‘;

        fs.writeFile(filename,text,function(err){
            if(err){
                console.log(‘写入文件‘+filename+‘失败,因为‘+err);
            }
        });
    }

    return obj;
}

//-------------------------------
// 找到每个论坛页的帖子
// pageUrl:论坛页的地址
//-------------------------------
function findTopicsInPage(pageUrl){
    console.log("Current page="+pageUrl);

    // 得到hostname和path
    var currUrl=pageUrl.replace("http://","");
    var pos=currUrl.indexOf("/");
    var hostname=currUrl.slice(0,pos);    
    var path=currUrl.slice(pos);    
    pos=currUrl.lastIndexOf("/");
    var dir="http://"+currUrl.slice(0,pos);            
    
    // 初始化options  
    options={
        hostname:hostname,
            port:80,
            path:path,// 子路径
          method:‘GET‘,        
    };    

    // 请求并处理response
    req=http.request(options,function(resp){
        var html = [];

        resp.on("data", function(data) {
            html.push(data);
        })
        resp.on("end", function() {
            var buffer = Buffer.concat(html);

            var body = iconv.decode(buffer,‘gb2312‘);
            var $ = cheerio.load(body);

            $(".forumdisplay a").each(function(index,element){                
                var topicUrl=‘http://www.55188.com/‘+$(element).attr("href");
                var topicTitle=$(element).text();

                // 启动子贴爬虫
                
                var spider=new TopicSpider(topicTitle,topicUrl);
                spider.crawl();
            })  
        }).on("error", function(err) {
            console.log("findTopicsInPage函数失败"+err);
        })
    });

    // 超时处理
    req.setTimeout(7500,function(){
        req.abort();
    });

    // 出错处理
    req.on(‘error‘,function(err){
        console.log(‘请求发生错误‘+err);  
    });

    // 请求结束
    req.end();    
}

//-------------------------------
// 得到带颜色(前景色)的文字,用于在控制台输出
// text:文字
// color:前景色
//-------------------------------
function coloredText(text,color){
    var dic = new Array();
    dic["white"] = [‘\\x1B[37m‘, ‘\\x1B[39m‘];
    dic["grey"] = [‘\\x1B[90m‘, ‘\\x1B[39m‘];
    dic["black"] = [‘\\x1B[30m‘, ‘\\x1B[39m‘];
    dic["blue"] = [‘\\x1B[34m‘, ‘\\x1B[39m‘];
    dic["cyan"] = [‘\\x1B[36m‘, ‘\\x1B[39m‘];
    dic["green"] = [‘\\x1B[32m‘, ‘\\x1B[39m‘];
    dic["magenta"] = [‘\\x1B[35m‘, ‘\\x1B[39m‘];
    dic["red"] = [‘\\x1B[31m‘, ‘\\x1B[39m‘];
    dic["yellow"] = [‘\\x1B[33m‘, ‘\\x1B[39m‘];

    return dic[color][0]+text+dic[color][1]
}

//-------------------------------
// 入口函数
// start:起始页,从1开始
// end:终止页,>start
//-------------------------------
function main(start,end){
    console.log(coloredText(‘爬取任务开始‘,‘yellow‘));

    folder=‘infos(‘+getNowFormatDate()+")";

    // 创建目录
    fs.mkdir(‘./‘+folder,function(err){
        if(err){
            console.log("目录"+folder+"已经存在");
        }
    });

    for(var i=start;i<=end;i++){        
        pageUrl=‘http://www.55188.com/forum-8-‘+i+‘.html‘
        findTopicsInPage(pageUrl);
    }
}

//-------------------------------
// 测试函数,用于测试TopicSpider类
//-------------------------------
function testTopicSpider(){
    var spider=new TopicSpider(‘测试‘,‘http://www.55188.com/thread-8325667-1-1.html‘);
    spider.crawl();
}

//--------------------------------------
// 取得当前时间
//--------------------------------------
function getNowFormatDate() {
    var date = new Date();
    var seperator1 = "-";
    var seperator2 = "_";
    var month = date.getMonth() + 1;
    var strDate = date.getDate();
    if (month >= 1 && month <= 9) {
        month = "0" + month;
    }
    if (strDate >= 0 && strDate <= 9) {
        strDate = "0" + strDate;
    }
    var currentdate =date.getFullYear() + seperator1 + month + seperator1 + strDate
            + " " + date.getHours() + seperator2 + date.getMinutes()
            + seperator2 + date.getSeconds();
    return currentdate;
}

// 开始
main(1,5);

//testTopicSpider();

写出的文件示例截图如下:

技术分享图片

这些文件是json格式的,示例:

[{"url":"http://www.55188.com/thread-8337207-1-5.html","title":" 大势分析 ","楼层":"楼主","作者":"先见天机","日期":"2018-4-15","时间":"15:13"},{"url":"http://www.55188.com/thread-8337207-1-5.html","title":" 大势分析 ","楼层":"2楼","作者":"短线冲","日期":"2018-4-15","时间":"15:27"},{"url":"http://www.55188.com/thread-8337207-1-5.html","title":" 大势分析 ","楼层":"3楼","作者":"勇儿马甲","日期":"2018-4-15","时间":"15:52"},{"url":"http://www.55188.com/thread-8337207-1-5.html","title":" 大势分析 ","楼层":"4楼","作者":"崇心开始","日期":"2018-4-15","时间":"15:52"},{"url":"http://www.55188.com/thread-8337207-1-5.html","title":" 大势分析 ","楼层":"5楼","作者":"老法儿","日期":"2018-4-15","时间":"16:28"},{"url":"http://www.55188.com/thread-8337207-1-5.html","title":" 大势分析 ","楼层":"6楼","作者":"金山水财","日期":"2018-4-15","时间":"16:33"},{"url":"http://www.55188.com/thread-8337207-1-5.html","title":" 大势分析 ","楼层":"7楼","作者":"生活如愿","日期":"2018-4-15","时间":"17:19"},{"url":"http://www.55188.com/thread-8337207-1-5.html","title":" 大势分析 ","楼层":"8楼","作者":"李汶安","日期":"2018-4-15","时间":"17:41"},{"url":"http://www.55188.com/thread-8337207-1-5.html","title":" 大势分析 ","楼层":"9楼","作者":"极品之星","日期":"2018-4-16","时间":"07:57"},{"url":"http://www.55188.com/thread-8337207-1-5.html","title":" 大势分析 ","楼层":"10楼","作者":"叼叼狼","日期":"2018-4-16","时间":"08:54"},{"url":"http://www.55188.com/thread-8337207-1-5.html","title":" 大势分析 ","楼层":"11楼","作者":"先见天机","日期":"2018-4-16","时间":"09:47"},{"url":"http://www.55188.com/thread-8337207-1-5.html","title":" 大势分析 ","楼层":"12楼","作者":"先见天机","日期":"2018-4-16","时间":"09:56"},{"url":"http://www.55188.com/thread-8337207-1-5.html","title":" 大势分析 ","楼层":"13楼","作者":"先见天机","日期":"2018-4-16","时间":"10:10"},{"url":"http://www.55188.com/thread-8337207-1-5.html","title":" 大势分析 ","楼层":"14楼","作者":"先见天机","日期":"2018-4-16","时间":"10:23"},{"url":"http://www.55188.com/thread-8337207-1-5.html","title":" 大势分析 ","楼层":"15楼","作者":"先见天机","日期":"2018-4-16","时间":"10:35"},{"url":"http://www.55188.com/thread-8337207-1-5.html","title":" 大势分析 ","楼层":"16楼","作者":"先见天机","日期":"2018-4-16","时间":"10:51"},{"url":"http://www.55188.com/thread-8337207-1-5.html","title":" 大势分析 ","楼层":"17楼","作者":"先见天机","日期":"2018-4-16","时间":"10:58"},{"url":"http://www.55188.com/thread-8337207-1-5.html","title":" 大势分析 ","楼层":"18楼","作者":"先见天机","日期":"2018-4-16","时间":"11:00"},{"url":"http://www.55188.com/thread-8337207-1-5.html","title":" 大势分析 ","楼层":"19楼","作者":"先见天机","日期":"2018-4-16","时间":"11:10"},{"url":"http://www.55188.com/thread-8337207-1-5.html","title":" 大势分析 ","楼层":"20楼","作者":"先见天机","日期":"2018-4-16","时间":"11:17"}]

而insertDB.js的代码如下:

//======================================================
// 在理想论坛帖子下载爬虫1.02生成数据文件后读取数据插入数据库
// 2018年4月17日
//======================================================
var fs=require(‘fs‘);    // 内置文件处理模块
var allInfos=[];        // 数据文件里获得的全部信息
var folder;                // 数据文件所在的目录
var tasks=[];            // 任务数组
var finished=0;            // 已完成任务的数量

//--------------------------------------
// 将数据插入数据库
//--------------------------------------
function insertDB(){
    console.log("开始插入DB");
    console.log(‘总计将有‘+allInfos.length+"条数据将被插入数据库");
    
    var mysql=require(‘mysql‘); // 连接mysql数据库的模块

    var conn=mysql.createConnection({
        host:‘127.0.0.1‘,
        port:‘3306‘,
        database:‘test‘,
        user:‘root‘,
        password:‘12345678‘,
    });

    conn.connect(function(err){
        if(err){
            console.log(‘与MySQL数据库建立连接失败‘);
        }else{
            console.log(‘与MySQL数据库建立连接成功‘);

            for(var i=0;i<allInfos.length;i++){
                var info=allInfos[i];
                sql="insert into test.topic7(floor,author,tdate,ttime,addtime,url,title) values (‘"
                    +info[‘楼层‘]+"‘,‘"
                    +info[‘作者‘]+"‘,‘"
                    +info[‘日期‘]+"‘,‘"
                    +info[‘时间‘]+"‘,"
                    +"now(),‘"
                    +info[‘url‘]+"‘,‘"
                    +info[‘title‘]+"‘ "
                    +" )";

                conn.query(sql,function(err,result){
                    if(err){
                        console.log(err);
                    }else{
                        //console.log("Insert succeed");    
                    }
                            
                })
            }

            conn.end();
            //console.log(‘全部数据插入完成‘);
        }
    }); 
}

//--------------------------------------
// 检查是否完成
//--------------------------------------
function checkIfFinished(){
    finished++;

    // 读取任务全完成再插DB
    if(finished==tasks.length){
        console.log("数据总量:"+allInfos.length);
        insertDB();
    }
}

//--------------------------------------
// 入口函数
//--------------------------------------
function main() {
    folder=‘./‘+‘infos(2018-04-17 5_38_18)‘;// 数据文件所在目录

    fs.readdir(folder,function(err,files){
        if(err) throw err;

        for(var index in files){
            var task=(function(file){
                return function(){
                    fs.readFile(file,‘utf8‘,function(err,data){
                        if(err){
                            console.log(‘读取文件失败,因为‘+err);
                        }else{
                            var infos=JSON.parse(data);
                            allInfos=allInfos.concat(infos);   
                            
                            checkIfFinished();
                        }
                    });
                }
            })(folder+‘/‘+files[index]);

            tasks.push(task);
        }

        for(var task in tasks){
            tasks[task]();
        }
    });    
}

// 开始
main();

下面是数据库截图:

技术分享图片

这样分离后,原有的问题就算解决了,Python爬虫也可以照此解决。

2018年4月17日08点45分

以上是关于Nodejs理想论坛帖子爬虫1.02的主要内容,如果未能解决你的问题,请参考以下文章

【scrapy爬虫实战】Discuz 论坛版块全部帖子信息爬取

Python爬虫实战:爬取Drupal论坛帖子列表

ichartjs爬取理想论坛前30页帖子获得每个子贴的发帖时间,总计83767条数据进行统计,生成统计图表

简易python爬虫 - 爬取站长论坛信息

如何使用nodejs做爬虫程序

Python爬虫实战:爬取京东商品列表