node 写的简单爬虫

Posted aSnow

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了node 写的简单爬虫相关的知识,希望对你有一定的参考价值。

安装cheerio

npm install cheerio --save

引入http和cheeri

var http=require("http");
var cheerio=require("cheerio");

1.爬取新闻

我们选择新浪新闻来进行爬取

http://news.sina.com.cn/china/
http.get(url,function(res){
     var html=\'\';
     res.on(\'data\',function(data){
         html +=data
     })
 
     res.on(\'end\', function() {
         var $=cheerio.load(html);
        $("#subShowContent2_static .news-item h2").each((iten,i)=>{
            console.log($(i).text());
        })
      console.log("数据加载完毕");
     });
 }).on(\'error\', function() {
     console.log("获取数据出错!")
 });

结果如下:

2.爬取图片

我们选择天极网的图片进行爬取

http://pic.yesky.com/
http.get(url, function (res) {
        var imageData =\'\';
        res.on(\'data\',function(data){  //图片加载到内存变量
            imageData += data;
        }).on(\'end\',function(){        //图片加载完
            var $=cheerio.load(imageData);
            $Imgs = $(\'img\'),
            $Imgs.each((iten,i)=>{
            console.log($(i).attr(\'src\')+"------");
           })   
        });
    });

结果如下:

 

以上是关于node 写的简单爬虫的主要内容,如果未能解决你的问题,请参考以下文章

Python小白写的三个入门级的爬虫(附代码和注释)

node.js 使用 superagent 与 cheerio 完成简单爬虫

一个简单的小说爬虫

scrapy按顺序启动多个爬虫代码片段(python3)

scrapy主动退出爬虫的代码片段(python3)

go写的爬虫相比python写的都有哪些优势