一个简单的小说爬虫

Posted fenghen

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了一个简单的小说爬虫相关的知识,希望对你有一定的参考价值。

前段时间,在学 node 的过程中突然想到,我可以用 node 去爬小说。

说来就来。

  1、首先,要有一个能够免费看小说的网站,找到小说的列表页,分析其中每个章节的标签,找到其中的规则,这样可以在代码中把重复的去掉。

  2、通过 node 中的 http 模块加载这个列表页面,采用 cheerio 模块解析加载回来的 html,取到一个没有重复章节的列表。(列表中有章节名,章节的地址)。

  3、分析章节页面的标签,掌握章节页面的标签规则。

  4、加载章节页面,解析 html ,取到章节的内容。

  5、利用 node 的 file 模块将取到的内容写到电脑的硬盘上。

4,5 是根据 2 取回来的章节列表重复执行的。

好了,不说,上代码

util.js

const path = require(‘path‘);


const utils = {
    resolve: function(dir) {
        return path.join(__dirname, ‘../‘, dir)
    },
}

module.exports = utils;

 

index.js

const getHttp = require(‘./request.js‘);

getHttp();

 

request.js

const http = require(‘http‘);
const cheerio = require(‘cheerio‘);
const config = require(‘./config.js‘);
const file = require(‘./file.js‘);

function getHttp(filePath, callback) {
    http.get(config.href + filePath, function(res) {
        var html = ‘‘;
        res.setEncoding(‘utf-8‘);

        res.on(‘data‘, function(data) {
            html += data;
        });

        res.on(‘end‘, function() {
            var $ = cheerio.load(html); //采用cheerio模块解析html
            var font = $(‘#htmlContent‘).find(‘p‘);
            var j = -1;

            function fonts() {
                j++;
                if (j >= font.length) {
                    callback();
                    return;
                }
                file.writeFile($(font[j]).text(), fonts);
            }
            fonts();
        });

        res.on(‘error‘, function(err) {
            console.log(err);
        });
    })
}

function getUrl() {
    http.get(config.href + ‘index.html‘, function(res) {
        var html = ‘‘;
        res.setEncoding(‘utf-8‘);

        res.on(‘data‘, function(data) {
            html += data;
        });

        res.on(‘end‘, function() {
            var $ = cheerio.load(html); //采用cheerio模块解析html
            var ul = $(‘.wrapper_list .booklist‘).find(‘ul‘);
            var a = $(ul).find(‘li>a‘);
            var i = 8;

            function wriert() {
                i++;
                console.log(i - 8);
                if (i >= a.length) {
                    return;
                }
                file.writeFile($(a[i]).text().replace(‘正文‘, ‘‘));
                getHttp($(a[i]).attr(‘href‘), wriert);
            }
            wriert();
        });

        res.on(‘error‘, function(err) {
            console.log(err);
        });
    })
}

module.exports = getUrl;

 

file.js

const utils = require(‘./utils.js‘);
const config = require(‘./config.js‘);
const cheerio = require(‘cheerio‘);
const fs = require(‘fs‘);

var file = {}

file.writeFile = function(p, callback) {
    var folder = utils.resolve(config.folder);
    fs.access(folder, fs.constants.R_OK | fs.constants.W_OK, function(e) {
        if (e) {
            fs.mkdir(folder, function() {
                file.write(p, callback);
            })
        } else {
            file.write(p, callback);
        }
    });
}
file.write = function(p, callback) {
    var url = utils.resolve(config.folder + ‘/‘ + config.name + ‘.txt‘);
    if (fs.existsSync(url)) {
        fs.appendFileSync(url, ‘\r\n‘ + p + ‘\r\n‘);
        callback && callback();
    } else {
        fs.writeFileSync(url, ‘\r\n‘ + p + ‘\r\n‘);
        callback && callback();
    }
}
module.exports = file;

 

config.js

const config = {
    href: ‘http://www.qtshu.com/xinghedadi/‘,
    name: ‘星河大帝‘,
    folder: ‘novel‘,
};

module.exports = config;

 

以上是关于一个简单的小说爬虫的主要内容,如果未能解决你的问题,请参考以下文章

用python爬虫简单爬取 笔趣网:类“起点网”的小说

Golang 简单爬虫实现,爬取小说

Python3网络爬虫:使用Beautiful Soup爬取小说

1121 爬虫简单面条版

Python爬虫中文小说网点查找小说并且保存到txt(含中文乱码处理方法)

python|爬虫东宫小说