如何用nodejs开发爬虫程序?
Posted
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了如何用nodejs开发爬虫程序?相关的知识,希望对你有一定的参考价值。
安装必要的模块:
Express
基于 Node.js 平台,快速、开放、极简的 web 开发框架。它提供一系列强大的特性,帮助你创建各种 Web 和移动设备应用。
Request
简化HTTP请求的处理,支持OAuth的签名请求,很好很强大。
Cheerio
为服务器特别定制的,快速、灵活、实施的jQuery核心实现,像操作dom一样操作抓取文本。
mysql
node下的mysql数据库连接模块,存储抓取数据。
核心逻辑:
app.get('/', function (req, res, next)
// 用 superagent 去抓取 https://cnodejs.org/ 的内容
superagent.get('https://cnodejs.org/')
.end(function (err, sres)
// 常规的错误处理
if (err)
return next(err);
// sres.text 里面存储着网页的 html 内容,将它传给 cheerio.load 之后
// 就可以得到一个实现了 jquery 接口的变量,我们习惯性地将它命名为 `$`
// 剩下就都是 jquery 的内容了
var $ = cheerio.load(sres.text);
var items = [];
$('#topic_list .topic_title').each(function (idx, element)
var $element = $(element);
items.push(
title: $element.attr('title'),
href: $element.attr('href')
);
);
res.send(items);
);
);
demo:https://github.com/alsotang/node-lessons/tree/master/lesson3
参考技术A安装必要的模块:
Express
基于 Node.js 平台,快速、开放、极简的 web 开发框架。它提供一系列强大的特性,帮助你创建各种 Web 和移动设备应用。
Request
简化HTTP请求的处理,支持OAuth的签名请求,很好很强大。
Cheerio
为服务器特别定制的,快速、灵活、实施的jQuery核心实现,像操作dom一样操作抓取文本。
mysql
node下的mysql数据库连接模块,存储抓取数据。
核心逻辑:
app.get('/', function (req, res, next)
// 用 superagent 去抓取 https://cnodejs.org/ 的内容
superagent.get('https://cnodejs.org/')
.end(function (err, sres)
// 常规的错误处理
if (err)
return next(err);
// sres.text 里面存储着网页的 html 内容,将它传给 cheerio.load 之后
// 就可以得到一个实现了 jquery 接口的变量,我们习惯性地将它命名为 `$`
// 剩下就都是 jquery 的内容了
var $ = cheerio.load(sres.text);
var items = [];
$('#topic_list .topic_title').each(function (idx, element)
var $element = $(element);
items.push(
title: $element.attr('title'),
href: $element.attr('href')
);
);
res.send(items);
);
);
demo:https://github.com/alsotang/node-lessons/tree/master/lesson3
如何用nodejs 开发一个命令行交互工具
一、npm package.json bin
1、package.json
{ "name": "test", "version": "1.0.0", "description": "", "main": "index.js", "scripts": { "test": "echo "Error: no test specified" && exit 1" }, "keywords": [], "author": "", "license": "ISC", "bin": { "gen": "bin/gen.js" }, "dependencies": { "commander": "^2.15.1" } }
2、bin/gen.js
#!/usr/bin/env node var argv = process.argv; var filePath = __dirname; var currentPath = process.cwd(); console.log(argv) console.log(filePath) console.log(currentPath)
二、Commnader + inquirer + minimist + download-git-repo + ejs(Nunjucks、handlebars ) + execa (child_process)
Commander 示例
#!/usr/bin/env node var program = require(‘commander‘); program .version(‘0.0.1‘) .option(‘-C, --chdir <path>‘, ‘change the working directory‘) .option(‘-c, --config <path>‘, ‘set config path. defaults to ./deploy.conf‘) .option(‘-T, --no-tests‘, ‘ignore test hook‘) .option(‘-p, --peppers‘, ‘Add peppers‘) .option(‘-P, --pineapple‘, ‘Add pineapple‘) .option(‘-b, --bbq-sauce‘, ‘Add bbq sauce‘) .option(‘--p, --fuck-you‘, ‘fuckyou‘) .option(‘build --env <fuckyou>‘, ‘fuckyou2‘) .parse(process.argv); if (program.peppers) console.log(‘ - peppers‘); if (program.pineapple) console.log(‘ - pineapple‘); if (program.bbqSauce) console.log(‘ - bbq‘); if (program.fuckYou) console.log(‘fuckyou‘); if (program.env && program.args.length != 0) { console.log(program.args); } program .command(‘init‘) .description(‘run remote setup commands‘) .action(function() { console.log(‘setup‘); }); program .command(‘exec <cmd>‘) .description(‘run the given remote command‘) .action(function(cmd) { console.log(‘exec "%s"‘, cmd); }); program .command(‘teardown <dir> [otherDirs...]‘) .description(‘run teardown commands‘) .action(function(dir, otherDirs) { console.log(‘dir "%s"‘, dir); if (otherDirs) { otherDirs.forEach(function (oDir) { console.log(‘dir "%s"‘, oDir); }); } });
以上是关于如何用nodejs开发爬虫程序?的主要内容,如果未能解决你的问题,请参考以下文章
Python爬虫编程思想(89):如何用逆向工程分析异步加载页面