数据挖掘之爬虫技术简介

Posted 9系学生会

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了数据挖掘之爬虫技术简介相关的知识,希望对你有一定的参考价值。

1
数据挖掘是什么?


以下是维基百科对数据挖掘的定义:
Data mining is the computational process of discovering patterns in large data sets. The overall goal of the data mining process is to extract information from a data set and transform it into an understandable structure for further use.
小编用自己菜鸡水平的英语来给大家通俗地翻译一下:数据挖掘就是利用计算机来从一个十分庞大的数据集合中(使用各种神奇的算法)抽取出我们需要的数据,将它们化为更加直观的形式以供使用。

原创作者:喃东尼
数据挖掘是现在十分火爆的领域之一,在金融、电信、保险等许多行业都有重要的应用。通过数据挖掘来了解用户需求、防范风险等等,是一个很有发展前景的行业。
(小编对这个名词的了解也十分肤浅,没有办法讲解得很清楚。但接下来的部分才是今天的重头戏—— 网络爬虫,这是数据挖掘技术中十分重要的一种工具。)
2
 网络爬虫技术
首先我们来讲一下什么是爬虫。
网络爬虫,简单来说即是用来 自动化地从万维网中搜集大量数据的程序或脚本。
浏览器也可以被认为是一种加强版的爬虫。
大一的小伙伴们还记得上学期的大计

以上是关于数据挖掘之爬虫技术简介的主要内容,如果未能解决你的问题,请参考以下文章

爬虫系列之第1章-简介&requests模块

初识Java爬虫之Jsoup,提供参考代码

爬虫系列之mongodb

爬虫之scrapy框架

爬虫技术之数据采集?

爬虫与反爬虫技术简介