简易数据分析 | 开启数据采集之路

Posted web-scraper

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了简易数据分析 | 开启数据采集之路相关的知识,希望对你有一定的参考价值。

这是简易数据分析系列的第 1 篇文章。

前文说到,我会做一个数据分析的系列教程,面向纯小白,不写代码不写公式,搞定数据分析的第一步。教程的内容主要会从三个方向上进行延伸:数据采集,数据清洗和数据可视化。

今天我们就开始我们的数据采集之路。

数据采集听着高大上,其实对于普通人来说,就是自动化版的复制粘贴

技术图片

我们设想一个场景,打开网易云音乐,发现某个音乐的热门评论很好玩,特别想收集起来,我们一般怎么做?当然是复制粘贴,热门评论最多就十几条,手快一些的一分钟就收集完了。

如果数据量特别大怎么办?例如几百万几千万的数据,这个肯定不是个人能搞定的,必须要专业团队技术支持。

比如说 Google 百度这些搜索引擎公司,需要采集海量的内容,背后都是高性能的爬虫程序在运作;还有一些做大数据的公司,也得写爬虫去采集数据,这些工作,都是由专业的爬虫工程师去做的。

技术图片

但是我们日常生活中,总会遇到一些数据量说大不大,说小不小的场景:

上学时某门课需要做数据调研,你想把某微博下的评论都采集起来,数据量也就几百条。手动复制粘贴吧,太累了,写个爬虫吧,自己也不会,卡在这里久久不能开始;

做运营工作时想收集一些参考数据,数据量也就几百几千,技术忙的写 bug 没时间给你做私人需求,导致分析工作一直拖延;

跳槽时不知道下家公司给的薪资待遇在业内是什么水平,搜索了几个招聘网站,结果一个网站一个数,没有一个统一的薪资分析平台。

对于这些数据量几千到一万的场景,我们日常生活中经常遇到,也不会涉及到多高端的内容:什么高并发爬虫系统,机器学习深度学习、大数据分析。

我们一般只是想把数据收集起来,然后看看几种统计数字,再做几个图表辅助我们思考和决策,我这次的课程目的,就是想解决这种日常需求,让大家快速的进入数据分析世界。

关于数据采集软件,经过我一段时间的使用的调研,首推 Web Scraper 这个浏览器插件

技术图片

推荐理由有这几个:

1.门槛足够低,只要你电脑上安装了 Chrome 浏览器就可以用

2.永久免费,无付费功能,无需注册

3.操作简单,点几次鼠标就能爬取网页,真正意义上的 0 行代码写爬虫

既然有这么多的优点,当然是赶紧安装啦。下一步开始我们的插件安装之旅。

1.安装 Chrome 浏览器

这个没啥好说的,Windows 电脑的各大应用商店都有最新版的 Chrome 浏览器,或者百度一下,首页一般都会有安装包地址,下载安装就好;

(为了减少兼容性问题,最好安装最新版本的 Chrome 浏览器)

2.下载 Web Scraper 插件

2.1 可以直接访问的同学,直接访问"Chrome 网上应用店",搜索 Web Scraper 下载就可:

技术图片

2.2 暂时无条件访问的,我们可以曲线救国一下,当然和上面比会稍微麻烦一些:

首先,我们访问 www.gugeapps.net 这个国内浏览器插件网站,搜索 Web Scraper,下载插件,注意这时候插件不是直接安装到浏览器上的,而是下载到了本地:

技术图片

然后,我们在浏览器的的网址输入框里输入 chrome://extensions/ ,这样我们就可以打开浏览器的插件管理后台

技术图片

如果你是 Mac 用户:

我们找到下载好的 Web Scraper 插件,这个文件的后缀名为 .crx,我们把他改为 .zip

技术图片

再切到浏览器的插件管理后台,打开右上方的开发者模式,把 Web Scraper.zip 这个文件拖进去,这样就安装好了;

技术图片

一般这样安装会有一个红色的错误按钮,我们不用管它,直接忽略就行。

如果你是 windows 用户,你需要这样做:

1.把后缀为 .crx 的插件改为 .rar,然后解压缩

2.进入 chrome://extensions/ 这个页面,开启开发者模式

3.点击"加载已解压的扩展程序",选择第一步中解压的文件夹,正常情况下就安装成功了。

技术图片

到这里我们的插件就安装好了,先别急着用,我们先去探索一下 Chrome 浏览器的那些不为人知的功能。

3.浏览器的那些隐藏功能

作为普通的使用者,大家用浏览器就是查阅信息,浏览网页。但在开发者的眼里,Chrome 浏览器提供了非常强大的开发能力。在这里我给大家介绍几个常用的功能,以方便我们后续的学习。

3.1 开启开发者后台

这个功能我其实在旧文《造谣成本有多低?一行代码就可以截图造假》中提到过,想从普通浏览模式切换到开发者模式,只要按 F12 就可以实现,其实还有好几种方式切换出后台,但是太繁琐了,我在这里就不多说了,感兴趣的可以到原文里看看。

技术图片

3.2 一行代码自由修改网页

这个也是旧文《造谣成本有多低?一行代码就可以截图造假》的内容,感兴趣的同学可以了解一下。

3.3 切换开发者后台的位置

控制台打开后,一般会在网页的下方显示,我们其实也可以切到网页的右边显示,具体的操作是点击后台面板右侧关闭按钮旁边的 按钮。

技术图片

这里我为了演示效果把字体放大了,实际操作时字体你们的字体应该会小一些,并不影响使用。

3.4 用电脑浏览器模拟手机浏览器

用电脑浏览器模拟手机浏览器是一个很实用的功能。因为现在是移动互联网的时代了,大部分公司的网页都是优先支持手机屏幕,而且手机浏览器的数据结构更清晰更好抓取。

开启模拟手机也很简单,只要点击一下开启开发者后台左侧的手机切换图标,然后刷新就好了。

技术图片

我们可以拿豆瓣这个网站演示一下。

技术图片

这个功能我们除了后续课程会用到,当然,我们还可以做些别的事情,比如说上班时开个小屏幕偷偷摸鱼刷微博。当然,被老板抓住时别说是我教的。

技术图片

好了,今天的准备内容就到这里了,下一期我们就开始学习 Web Scraper 的使用方法。

技术图片

以上是关于简易数据分析 | 开启数据采集之路的主要内容,如果未能解决你的问题,请参考以下文章

R语言基础1:R语言开启数据分析之路(附视频)|暑期系列

牢抓数据安全,开启企业自动化运维之路

#yyds干货盘点# 前端歌谣的刷题之路-第一百五十六题-简易深拷贝

快速开启MySQL数据库的学习之路

快速开启MySQL数据库的学习之路

快速开启MySQL数据库的学习之路