以下是维基百科对数据挖掘的定义:
Data mining is the computational process of discovering patterns in large data sets. The overall goal of the data mining process is to extract information from a data set and transform it into an understandable structure for further use.
小编用自己菜鸡水平的英语来给大家通俗地翻译一下:数据挖掘就是利用计算机来从一个十分庞大的数据集合中(使用各种神奇的算法)抽取出我们需要的数据,将它们化为更加直观的形式以供使用。
原创作者:喃东尼
数据挖掘是现在十分火爆的领域之一,在金融、电信、保险等许多行业都有重要的应用。通过数据挖掘来了解用户需求、防范风险等等,是一个很有发展前景的行业。
(小编对这个名词的了解也十分肤浅,没有办法讲解得很清楚。但接下来的部分才是今天的重头戏——
网络爬虫,这是数据挖掘技术中十分重要的一种工具。)
2
网络爬虫技术
首先我们来讲一下什么是爬虫。
网络爬虫,简单来说即是用来
自动化地从万维网中搜集大量数据的程序或脚本。
浏览器也可以被认为是一种加强版的爬虫。
大一的小伙伴们还记得上学期的大计