node.js之爬虫

Posted JaydenLD@Clara

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了node.js之爬虫相关的知识,希望对你有一定的参考价值。

nodejs爬取数据出现编码错误的问题

可以使用 superagent-charset 和 superagent 模块进行处理

var charset = require(\'superagent-charset\');
var cheerio = require(\'cheerio\');
var superagent = require(\'superagent\');
charset(superagent);
var express = require(\'express\');

var url = \'http://acm.hdu.edu.cn/statistic.php?pid=1000\';
var app = express();

app.get(\'/\', function (req, res, next) {
    superagent.get(url)
        .charset(\'gbk\')
        .end(function (err, sres) {
            var html = sres.text;
            var $ = cheerio.load(html, {decodeEntities: false});
            var len = $(\'.table_text\').length;
            console.log(len);
            var arr =[];
            for(var i = 0 ; i<len;i++){
                arr.push($(\'.table_text td a\').eq(i).html());
            }
            // var ans = $(\'.table_text td a\').eq(1).html();
            // res.send(ans);
            res.send(arr);
            console.log(arr);
        });

});

app.listen(3000, function () {
    console.log(\'app is listening at port 3000\');
});

结果是

 

以上是关于node.js之爬虫的主要内容,如果未能解决你的问题,请参考以下文章

node.js之爬虫

Node.js写爬虫系列之第1章

实用前端Node.js写爬虫系列之第3章:编写小说阅读器

Node.js JavaScript 片段中的跳过代码

Node.js umei图片批量下载Node.js爬虫1.00

Node.js aitaotu图片批量下载Node.js爬虫1.00版