简单实现nodejs爬虫工具

Posted 2020-10-27 sroot

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了简单实现nodejs爬虫工具相关的知识，希望对你有一定的参考价值。

约30行代码实现一个简单nodejs爬虫工具，定时抓取网页数据。

使用npm模块

request---简单http请求客户端。（轻量级）

fs---nodejs文件模块。

index.js

var request = require(‘request‘);
var fs = require("fs");

var JJurl = "https://recommender-api-ms.juejin.im/v1/get_recommended_entry?suid=6bYFY7IRbfmijiJeeeIQ&ab=welcome_3&src=web"
var title = ""

var options = {
    uri: JJurl,
    headers: {
        ‘User-Agent‘: ‘Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (Khtml, like Gecko) Chrome/59.0.3071.115 Safari/537.36‘,
    },
    json: true
};

setInterval(function() {
    request(options, function(error, response, body) {
        if (!error) {
            for (var i in body.d) {
                title += body.d[i].title + "\n"
            }
            fs.writeFile(‘./result.txt‘, title, function(err) {
                if (err) {
                    throw err;
                }
            });
        } else {
            console.log(‘抓取失败‘)
        }
    });
}, 5000);

PS: 建议设置用户代理。防止请求被拒绝。

以上是关于简单实现nodejs爬虫工具的主要内容，如果未能解决你的问题，请参考以下文章