简单实现nodejs爬虫工具

Posted sroot

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了简单实现nodejs爬虫工具相关的知识,希望对你有一定的参考价值。

约30行代码实现一个简单nodejs爬虫工具,定时抓取网页数据。

 

使用npm模块

request---简单http请求客户端。(轻量级)
fs---nodejs文件模块。
 
index.js
var request = require(‘request‘);
var fs = require("fs");

var JJurl = "https://recommender-api-ms.juejin.im/v1/get_recommended_entry?suid=6bYFY7IRbfmijiJeeeIQ&ab=welcome_3&src=web"
var title = ""

var options = {
    uri: JJurl,
    headers: {
        ‘User-Agent‘: ‘Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (Khtml, like Gecko) Chrome/59.0.3071.115 Safari/537.36‘,
    },
    json: true
};

setInterval(function() {
    request(options, function(error, response, body) {
        if (!error) {
            for (var i in body.d) {
                title += body.d[i].title + "\n"
            }
            fs.writeFile(‘./result.txt‘, title, function(err) {
                if (err) {
                    throw err;
                }
            });
        } else {
            console.log(‘抓取失败‘)
        }
    });
}, 5000);

 

PS: 建议设置用户代理。防止请求被拒绝。
 

以上是关于简单实现nodejs爬虫工具的主要内容,如果未能解决你的问题,请参考以下文章

如何通过nodeJs爬虫获取数据简单实现代码

nodejs实现最简单的爬虫

Nodejs——简单小说爬虫实现

视频博文结合的教程:用nodejs实现简单的爬虫

nodeJS实现简易爬虫

nodejs常用代码片段