「无代码」高效的爬取网页数据神器

Posted 恒生LIGHT云社区

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了「无代码」高效的爬取网页数据神器相关的知识,希望对你有一定的参考价值。

神器介绍

工作中,我们有时需要获取某个网站中的数据作为素材,比如一些热点排名。但是不会写代码或觉得写代码爬取太麻烦,那有没有什么高效的工具能帮助我们解决这个问题呢?需要获取某个网站中的数据作为素材,比如一些热点排名。但是不会写代码或觉得写代码爬取太麻烦,那有没有什么高效的工具能帮助我们解决这个问题呢?

神器介绍

web scraper 是 Chrome 浏览器的插件,能够通过图像界面的方式帮助我们抓取网页上的数据。

这是一款免费的 Chrome 浏览器扩展,只要建立sitemap即可抓取相应的数据,无需写代码即可抓取95%以上的网站数据(比如博客列表,知乎回答,微博评论等)

(下载链接:国内国外

使用教程

以 B 站的排行榜为例,我们需要抓取排行榜的数据。(地址:https://www.bilibili.com/v/popular/rank/all

1.首先我们已经安装好 web scraper 插件,通过 F12 打开开发工具,找到插件页面。

2.可以看到多了个 web scraper 标签,下面有 sitemapssitemapcreate new sitemap ,点击 create 新建一个爬虫抓取任务。name 随意填一个,url 填入网页访问地址即可。

3.然后点击add new selector 添加新的选择器,给id起个名,type为 element ,点击 select 选中需要爬取的页面元素,可以看到网页标红了。

然后再选择第二条,可以看到下面的内容都选中了,点击 done selecting 就好了。

接着点击 element preview 预览下可以看到页面元素都抓取到了,还要选中 Multiple 。然后保存选择器。

4.然后通过以上方式新建选择器,将排名,标题,播放量,评论量,简介图,链接等数据抓取。点击 selector graph 可以看到抓取的选择器关系图。

5.然后选择器都建好后点击 scrape 开始抓取数据,等待抓取完成,刷新数据预览。

6.最后可导出 CSV 文件,用excel查看抓取数据。

总结

最后,附上我的抓取脚本,导入即可爬取数据。

{"_id":"bilibili","startUrl":["https://www.bilibili.com/v/popular/rank/all"],"selectors":[{"id":"bilibili_rank","parentSelectors":["_root"],"type":"SelectorElement","selector":"li.rank-item","multiple":true,"delay":0},{"id":"-排名","parentSelectors":["bilibili_rank"],"type":"SelectorText","selector":" div.num","multiple":true,"delay":0,"regex":""},{"id":"-标题","parentSelectors":["bilibili_rank"],"type":"SelectorText","selector":"a.title","multiple":false,"delay":0,"regex":""},{"id":"播放量","parentSelectors":["bilibili_rank"],"type":"SelectorText","selector":".detail > span:nth-of-type(1)","multiple":false,"delay":0,"regex":""},{"id":"评论量","parentSelectors":["bilibili_rank"],"type":"SelectorText","selector":"span:nth-of-type(2)","multiple":false,"delay":0,"regex":""},{"id":"简介图","parentSelectors":["bilibili_rank"],"type":"SelectorImage","selector":"img","multiple":false,"delay":0},{"id":"-链接","parentSelectors":["bilibili_rank"],"type":"SelectorText","selector":"a.title","multiple":false,"delay":0,"regex":""}]}

以上是关于「无代码」高效的爬取网页数据神器的主要内容,如果未能解决你的问题,请参考以下文章

简单的爬取网页图片

Python实现YY评级分数的爬取,并保存数据(附代码)

Python实现YY评级分数的爬取,并保存数据(附代码)

requests实例2:亚马逊网站商品网页的爬取

请教一个问题,怎么提高 python 爬虫的爬取效率

主板指数市盈率等数据的爬取(类js格式处理,附js处理)