如何用nodejs开发爬虫程序?

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了如何用nodejs开发爬虫程序?相关的知识,希望对你有一定的参考价值。


安装必要的模块:

Express
基于 Node.js 平台,快速、开放、极简的 web 开发框架。它提供一系列强大的特性,帮助你创建各种 Web 和移动设备应用。

Request

简化HTTP请求的处理,支持OAuth的签名请求,很好很强大。


Cheerio
为服务器特别定制的,快速、灵活、实施的jQuery核心实现,像操作dom一样操作抓取文本。


mysql

node下的mysql数据库连接模块,存储抓取数据。


核心逻辑:

app.get('/', function (req, res, next)
 // 用 superagent 去抓取 https://cnodejs.org/ 的内容
 superagent.get('https://cnodejs.org/')
   .end(function (err, sres)
     // 常规的错误处理
     if (err)
       return next(err);
     
     // sres.text 里面存储着网页的 html 内容,将它传给 cheerio.load 之后
     // 就可以得到一个实现了 jquery 接口的变量,我们习惯性地将它命名为 `$`
     // 剩下就都是 jquery 的内容了
     var $ = cheerio.load(sres.text);
     var items = [];
     $('#topic_list .topic_title').each(function (idx, element)
       var $element = $(element);
       items.push(
         title: $element.attr('title'),
         href: $element.attr('href')
       );
     );
     res.send(items);
   );
);


demo:https://github.com/alsotang/node-lessons/tree/master/lesson3

参考技术A


安装必要的模块:

Express
基于 Node.js 平台,快速、开放、极简的 web 开发框架。它提供一系列强大的特性,帮助你创建各种 Web 和移动设备应用。

Request

简化HTTP请求的处理,支持OAuth的签名请求,很好很强大。


Cheerio
为服务器特别定制的,快速、灵活、实施的jQuery核心实现,像操作dom一样操作抓取文本。


mysql

node下的mysql数据库连接模块,存储抓取数据。


核心逻辑:

app.get('/', function (req, res, next)
 // 用 superagent 去抓取 https://cnodejs.org/ 的内容
 superagent.get('https://cnodejs.org/')
   .end(function (err, sres)
     // 常规的错误处理
     if (err)
       return next(err);
     
     // sres.text 里面存储着网页的 html 内容,将它传给 cheerio.load 之后
     // 就可以得到一个实现了 jquery 接口的变量,我们习惯性地将它命名为 `$`
     // 剩下就都是 jquery 的内容了
     var $ = cheerio.load(sres.text);
     var items = [];
     $('#topic_list .topic_title').each(function (idx, element)
       var $element = $(element);
       items.push(
         title: $element.attr('title'),
         href: $element.attr('href')
       );
     );
     res.send(items);
   );
);


demo:https://github.com/alsotang/node-lessons/tree/master/lesson3

如何用nodejs 开发一个命令行交互工具

参考地址1参考地址2

一、npm package.json bin

1、package.json

{
  "name": "test",
  "version": "1.0.0",
  "description": "",
  "main": "index.js",
  "scripts": {
    "test": "echo "Error: no test specified" && exit 1"
  },
  "keywords": [],
  "author": "",
  "license": "ISC",
  "bin": {
    "gen": "bin/gen.js"
  },
  "dependencies": {
    "commander": "^2.15.1"
  }
}

2、bin/gen.js

#!/usr/bin/env node
var argv = process.argv;
var filePath = __dirname;
var currentPath = process.cwd();

console.log(argv)
console.log(filePath)
console.log(currentPath)

 

二、Commnader + inquirer + minimist + download-git-repo + ejs(Nunjucks、handlebars ) +  execa (child_process)

 

Commander 示例

#!/usr/bin/env node
var program = require(‘commander‘);

 program
   .version(‘0.0.1‘)
   .option(‘-C, --chdir <path>‘, ‘change the working directory‘)
   .option(‘-c, --config <path>‘, ‘set config path. defaults to ./deploy.conf‘)
   .option(‘-T, --no-tests‘, ‘ignore test hook‘)
   .option(‘-p, --peppers‘, ‘Add peppers‘)
   .option(‘-P, --pineapple‘, ‘Add pineapple‘)
   .option(‘-b, --bbq-sauce‘, ‘Add bbq sauce‘)
   .option(‘--p, --fuck-you‘, ‘fuckyou‘)
   .option(‘build --env <fuckyou>‘, ‘fuckyou2‘)
   .parse(process.argv);

if (program.peppers) console.log(‘  - peppers‘);
if (program.pineapple) console.log(‘  - pineapple‘);
if (program.bbqSauce) console.log(‘  - bbq‘);
if (program.fuckYou) console.log(‘fuckyou‘);
if (program.env && program.args.length != 0) {
    console.log(program.args);
}

 program
   .command(‘init‘)
   .description(‘run remote setup commands‘)
   .action(function() {
     console.log(‘setup‘);
   });

 program
   .command(‘exec <cmd>‘)
   .description(‘run the given remote command‘)
   .action(function(cmd) {
     console.log(‘exec "%s"‘, cmd);
   });

 program
   .command(‘teardown <dir> [otherDirs...]‘)
   .description(‘run teardown commands‘)
   .action(function(dir, otherDirs) {
     console.log(‘dir "%s"‘, dir);
     if (otherDirs) {
       otherDirs.forEach(function (oDir) {
         console.log(‘dir "%s"‘, oDir);
       });
     }
   });

 

以上是关于如何用nodejs开发爬虫程序?的主要内容,如果未能解决你的问题,请参考以下文章

如何用python 爬虫抓取金融数据

nodejs爬虫基础

Python爬虫编程思想(89):如何用逆向工程分析异步加载页面

Python爬虫编程思想(89):如何用逆向工程分析异步加载页面

如何用Python爬虫实现百度图片自动下载?

如何用爬虫爬取网页上的数据