网络爬虫技术与数据挖掘分析相结合

Posted 雷课

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了网络爬虫技术与数据挖掘分析相结合相关的知识,希望对你有一定的参考价值。

作者 | 雷课小雷

编辑 | 雷课小雷


上世纪末,随着数据挖掘理论和数据库技术的逐渐成熟,一批商业智能工具和知识管理技术开始被应用。Web2.0应用快速发展,非结构化数据大量产生,传统处理方法难以对付,带动了大数据技术的快速发展。至此,大数据应用渗透各行各业,数据驱动决策,信息社会智能化程度大幅提高。


网络爬虫技术与数据挖掘分析相结合

根据IDC作出的估测,数据一直都在以每年50%的速度增长,也就是说每两年就增长一倍(大数据摩尔定律)。

如今,大数据无处不在,包括金融、汽车、零售、餐饮、电信、医疗、体育、娱乐等在内的社会各行各业都已经融入了大数据的印记。但在这个大数据“爆炸”时代,我们拥有丰富的数据,但是缺乏有用的信息。那么如何在大量的数据中挖掘到自己感兴趣的、有用的数据呢?今天我们着重来介绍一个技术——网络爬虫技术,如何在大数据时代,实现爬虫技术和数据挖掘分析相结合。



   何谓“网络爬虫技术”

网络爬虫,又称为网页蜘蛛,网络机器人,是一种按照一定的要求,根据使用者编写的程序或者脚本,自动抓取万维网信息,实现自动索引。
网络爬虫技术与数据挖掘分析相结合
如果说网络爬虫技术对大家来说比较陌生,那么说起搜索引擎,想必大家就很熟悉了,如国外的谷歌搜索,国内的百度搜索、搜狗搜索等。两个有什么联系呢?网络爬虫通过抓取数据进行结构化提取然后提交给搜索引擎进行索引,以供分析使用。



   在使用爬虫技术前,我们需要掌握:

1. Python基础语法

2. html页面的内容抓取

3. HTML页面数据提取

4. Scrapy框架以及scrapy-redis分布式策略

5. 爬虫和反爬虫之间的斗争



   过程原理:

首先获取一部分种子的URL,放入待取URL队列。
取出抓取的URL,解析DNS得到主机的IP,然后将URL对应的网页数据抓取下来存入数据库。
将已经抓取的页面对应的URL放在已抓取的队列,分析已经抓取的URL中的URL,分析其中的其他URL,将其放在待抓取的URL队列中,从而进行下一个循环……
直到满足获取所有需要的数据,抓取过程结束。
如何获取URL
在我们进入一个网站时,每一个页面对应的一个网址,该网址即我们需要的URL。


   爬虫是违法的还是合法的?
我们说“技术无罪,人有罪”
技术是无罪的,技术本身是没有对错,但使用技术的人是有对错。举个例子,刀本来是没有对错的,但是如果你用刀来杀人,你就是错的,要付出代价的。
那么我们在抓取别人网站数据的时候,可能会涉及到一个问题,就是侵权。如何合法地抓取别网站的数据,就涉及到一个叫“robots协议”
Robots协议也叫robots.txt,是一种存放在网站根目录下的ASCII编码的文本文件,它会告诉此网站哪些内容是不应该被爬虫抓取的,哪些是可以被抓取的。如淘宝:声明不得已通过爬取技术擅自获取淘宝任何内容。
Robots协议是国际互联网界通行的道德规范,我们在抓取数据的时候,需要遵循该网站的robots协议,这样就不会产生侵权问题,也就是合法的。
我们绝大多数公司和个人使用的爬虫都是没有问题的,不必人人自危,只要把握住不要爬取个人信息,不要利用爬虫非法获利,不要爬取网站的付费内容,基本上不会有问题。
程序员是世界上最单纯的一批人,也是一批高智商低情商的人,工作是工作但也需要适当保持谨慎,对于一些游走在法律边缘的事情请保持距离。
敬畏法律,遵纪守法,从我做起。







END




往期精选





关注雷课        

学习干货   

以上是关于网络爬虫技术与数据挖掘分析相结合的主要内容,如果未能解决你的问题,请参考以下文章

阿里内部竞品分析工具:如何快速掌握 Python 数据采集与网络爬虫技术

如何快速掌握Python数据采集与网络爬虫技术

爬虫技术是做啥的

资源篇你一直想要的网络爬虫技术视频资料

基于网络爬虫技术的大数据审计方法研究

推荐:网络爬虫与文本挖掘核心技术案例实战高级研修班