初识大数据

Posted 小琳猫

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了初识大数据相关的知识,希望对你有一定的参考价值。

初识大数据

摘要

本篇博客参考哈尔滨工程大学王宏志老师于2017年出版的《大数据分析原理与实践》一书,对大数据的概念进行简略地总结。

由于阅读该书的目的仅是快速了解大数据所涉及的理论和技术,再加之其中包含的许多原理已在先前学习的机器学习、数据库、数理统计等科目中熟悉,因而未作详细记录,仅用4天完成。

写在前面

书本导读

《大数据分析原理与实践》一书从大数据分析的概述、模型、分析过程与技术、算法、平台、应用多维度地对大数据分析进行了全面、基础、理论实践并行的介绍,这几个维度也为深入研究大数据提供了指引和入口,是入门大数据的绝佳教材。

该书是教育部与阿里云产学结合的产物之一,书中的分析示例均通过阿里云的大数据分析平台,商业气息十分浓重。

聊聊

大数据的概念在早年IT行业、信息数字化上升的初期被提出,并随着行业的繁荣发展得到了同样的热度,成为家喻户晓的名词。大数据客观上见证了IT行业和数字化的繁荣,主观上更多受到了媒体和工学业界的鼓吹,近两年也逐渐随着IT行业的凛冬而逐渐淡化。

从个人观点来看,大数据涵盖的思想并不新颖,无论从理论上“含有较多人工干预的传统数据分析”、“融入更多自动化的机器学习”,到技术上“数据库技术的发展应用”、“行业垄断带来的软硬件资源集约造成的云计算”、“数字化、信息化规模扩大带来的分布式、大规模数据”,以及“围绕着垄断行业和电商、中介平台行业带来的如推荐系统、关系推理等应用”。

实际上,大数据更多地是IT垄断企业为了搏得更多政府支持、公众眼球,统计应用学者跟逐时代浪潮进行转型发展的一次契机。当然,大数据客观上也带来了一些新的技术、产业增长点和应用。

这里给出阮一峰244期的科技爱好者周刊,表达了他对大数据的一些观点。

0.序

1)阿里云总裁——胡晓明序

从IT领域讲,第四次科技革命的主角是IT技术,主要包括:云计算、大数据、人工智能、物联网。
①云计算特别是公有云作为基础设施,作为这场科技革命的承载平台,将全面支撑各类新技术、新应用。
②云计算相比于传统IT计算资源具有:硬件集约化、人才集约化、安全集约化、服务普惠化四个优点。
③云计算是“数据在线”的主要承载,“在线”是当前时代最重要的本能,它让互联网变成了最具渗透力的基础设施,数据变成了最具共享性的生产资料,计算变成了随时随地的公共服务。
④云计算不仅承载数据本身,同时也承载数据应用所需的计算资源。云计算是“智能”与“智慧”的重要支撑。
⑤智慧的两大支撑是网络(负责收集与共享数据)与大数据(“原材料”是各类智慧应用的基础),云计算是支撑网络和大数据的平台。
⑥云计算是企业享受平等IT应用与创新环境的有力保障,打破了小微企业和创业企业面临的IT技术和IT技术成本方面的壁垒,方便企业更加聚焦于擅长的领域进行创新。
⑦除了发挥基础设施平台的支撑作用,2.0时代的云计算将影响产业从量变到质变,云计算将重塑整个ICT生态,向下定义数据中心、IT设备,向上定义软件与应用,横向承载数据与安全,纵向支撑人工智能技术的演进与创新。

从国家层面讲,发展云计算产业的战略意义重大:
①云计算不仅是“IT基础设施”,还应像电网、移动通信网、互联网和交通网一样,成为“国家基础设施”,全面服务国家多项重大战略的实施与落地。
②云计算是网络强国建设的重要基石,发展云计算产业有利于我国实现IT全产业链的自主可控,提高信息安全保障水平,并推动大数据和人工智能的发展。
③云计算是提升国家治理能力的重要工具,助力于大数据、人工智能、物联网等技术应用到智慧城市、智慧政务等建设中,助于提高国家及各城市的治理水平和服务能力。
④云计算将全面推动国家产业转型升级,支持“中国制造2025”、“互联网+”,推动“两创”深度融合,为创新创业提供优质土壤。
⑤在DT时代,计算及计算能力是衡量一个国家科技实力和创新能力的重要指标,只有掌握计算能力,才具备全面支撑创新的基础,才有能力挖掘数据的价值,才能在重塑ICT生态过程中掌握主导权。
⑥云计算将成为接下来几年全球科技和产业竞争的焦点,我国云计算产业目前具备和发达国家抗衡的能力,我们对数据的认知、驾驭能力和对资源、人力的利用开发也与发达国家等同,因而正处于一个“黄金窗口期”。

人才是支撑技术进步和产业发展的最主要力量,未来世界各国在IT领域的竞争在某种程度上会转变为人才之争,加强专业人才培养是推动云计算、大数据产业发展的重要抓手。

2)作者序

对“大数据分析”的解读:①分析:可看作统计分析的延申;②数据:可看作数据管理与挖掘的扩展;③大:数据密集高性能计算的具体化

所需知识:①分析:统计学、数据分析、机器学习;②处理:数据库、数据挖掘;③计算平台:并行系统、并行计算

涉及内容:①模型:大数据分析模型的描述方法,不考虑实现下针对应用需求建立大数据分析模型,可用R语言、阿里云可视化工具描述;②技术:解决大数据分析的效率和可扩展性;③实现平台;④应用

未涉及内容:①数据流分析算法;②神经网络/深度学习;③大数据可视化;④大图分析算法;⑤医疗、社会安全、教育、工业领域应用

阅读人员:数据科学家;大数据算法研究、开发人员;大数据系统工程师

其他推荐书目:《大数据算法》、《复杂数据统计分析方法》、《多元统计分析导论》、《模式分类》

大数据分析平台:阿里云大数据开发治理平台DataWorks

1.绪论

1.1大数据

1)大数据时代(大数据的起源与背景)

起源:08年《Nature》杂志刊登的"Big Data"专题,11年《Science》杂志刊登了"Dealing with Data"

背景:①由(移动)互联网的发展,带来社会的信息化,信息量激增;②数据作为一种生产资料具有高可挖掘价值,对于海量数据的分析和开发受到国家级重视

2)大数据的定义

①wiki:大数据是指无法在可承受的时间范围内用常规工具进行捕捉、管理和处理的数据集合
②《大数据时代》:大数据是指不用随机分析法(抽样调查)这样的捷径,采用全量数据进行分析处理
③大数据研究机构“Gartner”:大数据是指需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产

3)大数据的特点(4V)

①Volume:规模大,数据的存储和计算都需要耗费海量规模的资源。数据的规模越大,通常对数据挖掘所得到的事物演变规律越可信,数据的分析结果也具有代表性,这两者难以用线性进行表达
②Velocity:高速性,数据增长速度快,需要及时处理,让对数据分析处理的速度跟上数据产生和失效的时间
③Variety:多样性,数据来源多样(网络、企事业单位、政府、媒体);形式多样,多为非结构化或多模态的半结构化数据(位置、图片、音频、视频)
④Value:高价值,大数据的价值总量大,但价值稀疏,即知识密度低。不同数据集的知识密度不同,大多数据是重复的,忽略部分数据对整体的分析和处理结果几乎没有影响

大数据不仅是一种资源,还作为一种思维方法,伴随大数据产生的数据密集型科学,有学者称为第四种科学模式,其特点在于:①不在于数据的杂乱,但强调数据的规模;②不要求数据的精准,但看重其代表性;③不刻意追求因果关系,但重视规律总结;这一思维成为复杂现象中透视本质的重要工具

1.2大数据分析

大数据分析是大数据到信息,再到知识的关键步骤

1)数据分析的定义:数据分析是指用适当的统计分析方法对收集来的大量数据进行分析、提取有用信息、形成结论的详细研究和概括总结的过程

2)数据分析的层次

①描述分析:探索历史数据并描述发生了什么(对历史数据的总结),如聚类、相关规则挖掘、模式发现和描述数据规律的可视化分析
②预测分析:预测未来的概率和趋势,如逻辑回归、基于分类器的预测
③规范分析:根据期望的结果、特定场景、资源以及对过去和当前事件的了解对未来的决策给出建议,如基于模拟的复杂系统分析和基于给定约束的优化解生成

3)大数据分析的过程

①业务理解:理解项目目标和业务需求,将业务知识转化为数据分析问题的定义和实现目标的初步计划上(需求分析)
②数据理解:从初始数据的收集开始经过一些处理,熟悉数据、识别数据的质量问题、首次发现数据的内部属性、探测引起兴趣的子集去形成隐含信息的假设(在正式进行数据清洗、建立数据模型、开发部署之前进行一些尝试,以理解数据,便于采用合适的方法分析处理)
③数据准备:从未处理数据中构造最终数据集的所有活动,准备后的数据是模型的输入值,包括数据结构选择与转换、数据清洗
④建模:模型选择与调参
⑤评估:评估模型的质量和项目目标需求是否完成
⑥部署:将数据中的知识以便于用户使用的方式重新组织和展现,如产生简单的报告等

4)大数据分析涉及的技术

①数据采集:利用数据库接收终端数据,该步骤的主要挑战是高并发,ETL工具负责将分布式的,异构数据源中的数据抽取到临时中间层后进行清洗、转换、集成,最后导入到数据仓库或数据集市中,成为联机分析处理、数据挖掘的基础

②数据管理:使大数据“存得下,查的出”,关键是数据的组织,NoSQL(键值对、文档型、图数据库)NewSQL(可扩展高性能还满足ACID)

③基础架构:高性能的计算架构和存储系统,如用于分布式计算的MapReduce计算框架、Spark计算框架,用于大规模数据协同工作的分布式文件存储HDFS等

④数据理解和提取:从结果、语义多样的数据中提取出可以直接进行分析、处理的数据,包括NLP、信息抽取(将非结构化数据进行结构化处理)

⑤统计分析:运用统计方法和分析对象的有关知识,从定量和定性结合上进行的研究活动,是继统计设计、统计调查、统计整理后的工作,如假设检验、显著性检验、差异分析、相关分析、T检验、方差分析、卡方分析、偏相关分析、距离分析、回归分析、简单回归分析、多元回归分析、逐步分析、回归预测与残差分析、岭回归、逻辑回归、曲线估计、因子分析、聚类分析、PCA、快速聚类分析与聚类法、判别分析、对应分析、多元对应分析(最有尺度分析)、bootstrap技术等,常用的工具有R语言、SPSS等

⑥数据挖掘:通过算法搜索海量数据中隐藏信息的过程,包括分类、估计、预测、相关性分组或关联规则、聚类、描述和可视化、复杂数据类型挖掘。相比于统计分析,数据挖掘一般没有事先预定好的主题,而是基于现有数据进行各种计算,以达到预测的效果,实现一些高级别的数据分析需求。

⑦数据可视化:关于数据视觉表示形式的科学技术研究,将数据表示成人能够直接读取的形式,根据可视化的原理可分为:基于几何的技术、基于像素的技术、基于图标的技术、基于层次的技术、基于图像的技术和分布式技术,根据数据类型可分为:文本可视化、图可视化、时空数据可视化、多维数据可视化,其工具包括:报表类工具、BI分析工具和专用的可视化工具

5)大数据分析的难点

①可扩展性:使得分析算法能够适应大规模数据,在大规模数据上能够在时间约束内得到结果
②可用性:分析结果高质量;分析结果适用于实际的需求
③领域知识结合:需要与领域紧密结合
④结果的检验:分析结果需要一定检验

2.大数据分析模型

尽管大数据分析的方法林林总总,但面对具体的应用,大数据分析非常依赖于想象力,即分析的目标(通过分析从大数据中发现什么知识、得到什么规律,进而产生什么样的价值)

1)何为大数据分析模型:大数据分析模型用于描述数据之间的关系,讨论要从大数据中发现什么

2)大数据分析模型的分类:①按数据类型:面向结构化多维数据的多元分析、图分析、非结构化的文本分析;②按输入与输出的关系:回归、分类、聚类、关联性分析;③按输入的特征:监督学习、无监督学习、半监督学习

面向具体应用的大数据分析模型往往是分析方法、模型的扩展或叠加

大数据分析与统计分析、机器学习、数据挖掘、数据仓库等学科都存在关系,因而有学者建议使用数据科学来覆盖整个领域

2.1大数据分析模型的建立方法

1)传统数据建模方法与大数据建模方法的比较

首先以大数据分析为结点,将数据分析方法分为传统建模方法大数据建模方法,这两者的异同自大数据分析的概念提出开始就争辩不休

①传统分析是”因果分析“,大数据分析是”关联分析“
②传统分析是”假设→检验“形式的分析,大数据分析是”探索→关联“形式的分析
③大数据分析并无新颖之处,只是将传统分析方法扩展到了更大规模的数据上,需要的只是一些大规模数据处理技术而不是更新的建模方法
④作者观点:两者并非割裂或对立,无需可以区别,应该重于应用

2)大数据分析模型的建立方法

业务调研 → 准备数据 → 浏览数据 → 变量选择 → 定义(发现)模型的模式 → 计算模型参数(调参) → 分析模型的解释和评估

2.2基本统计量

基本统计量:通过对数据进行基本的统计计算得到的统计量,简单但有效

1)全表统计量
①反应数据集中趋势:均值:受极端值影响大;中位数:不能充分利用所有数据信息;众数:当各个数据的重复次数相当时失效
②反应数据的波动大小:极差:不能充分利用全部数据;方差(标准差):计算繁琐,单位与原数据单位不一致

2)相关系数
相关系数:用于衡量变量之间关联关系的统计量

①皮尔森相关系数: ρ X , Y = c o n v ( X , Y ) σ X × σ Y ∈ [ − 1 , 1 ] ρ_X,Y = \\frac conv(X,Y) σ_X × σ_Y ∈ [-1,1] ρX,Y=σX×σYconv(X,Y)[1,1] ,两变量协方差与标准差的商,0表示两变量无关,正表示正相关,负表示负相关,绝对值越大关联性越强

2.3推断统计

推断统计:研究如何利用样本数据来推断总体特征的统计方法

1)参数估计
利用样本推断总体特征,实际问题中所研究的总体分布类型是已知的(经验或假设),但分布依赖于几个未知的参数,此时求总体分布的问题就归结为求其未知参数的问题

①点估计:寻求未知参数的估计量和估计值

设θ是总体分布X的未知参数,由观测样本X=x1,x2,…构成的函数θ’(X)称为θ的估计量,其代入具体数值后称为估计值

  • 矩估计:以样本的各阶矩(原点矩、中心矩)[的连续函数] 作为总体的各阶矩得到的估计量,如一阶原点估计作为期望的无偏估计,二阶中心矩作为期望的有偏估计
  • 极大似然估计

②区间估计

从点估计和抽样标准差出发,按给定的概率值(置信度/置信水平,显著性水平=1-置信度)建立包含待估计参数的区间(置信区间),其原理是样本分布理论。

样本分布提供提供概率解释,标准差大小决定区间估计的长度。通常我们希望,置信度大一些,置信区间短一些,但实际上这两者往往是矛盾的。

2)假设检验:利用样本信息判断对总体的假设是否成立

步骤:根据问题提出假设 → 选取合适的统计量,该统计量需要在假设成立时分布已知 → 由观测样本计算估计量的值,并根据给定的显著性水平进行检验,做出接收或拒绝假设

①t检验:适用于单因素小样本(n<50)、样本来源于正态分布、总体标准差未知、两样本均数比较时其总体方差相等

  • 单样本t检验
  • 两个独立样本均数t检验
  • 配对样本均数t检验

②u检验:大样本,样本小但总体标准差已知

3.关联分析模型

关联分析:关联分析用于描述多个变量之间的关联,其输入是数据集合,输出是数据集合中全部或部分元素之间的关联关系

若两个或多个变量之间存在一定的关联,那么其中一个变量的状态就能通过其他变量进行预测

3.1回归分析

回归分析:描述因变量与自变量之间的关系,用函数表示,适用于定量地解释变量之间的相互关系或预测因变量的值

1)多元回归分析

如何进行参数估计:最小二乘法OLS

回归分析的模型检验

[1]拟合优度检验:检验来自总体中的一类数据的分布是否与某种理论分布相一致的统计方法,用以检验回归模型整体的拟合度

[2]残差分析:判断残差( ε ′ = y − y ′ ε' = y - y' ε=yy)是否服从均值为0的正态分布;判断残差独立性;残差的方差相等判定(残差图、Spearman等级相关分析)

[3]变量相关性 [4]判断模型中自变量对因变量线性相关的显著性

2)其他回归:多项式回归;梯度提升决策树GBDT回归(多重累计回归树);逻辑斯蒂回归;生存分析数据cox回归;weibull回归;泊松回归;probit回归;负二项回归;主成分回归;岭回归;偏最小二乘回归

实验:回归的阿里云实现

3.2关联规则分析

关联规则分析又称关系挖掘,寻找在数据集合之间(隐藏)的频繁模式、关联、相关性与因果结构,并以规则的形式表达出来。

可分为:简单关联、时序关联、因果关联;常用算法有:Apriori算法、FPgrowth算法

过程:①从数据集中找出所有的频繁项集,它们的支持度≥最小支持度阈值;②由频繁集产生关联规则,计算其置信度,保留置信度≥最小置信度阈值的关联规则

3.3相关分析

相关关系是一种非确定性关系,如人的身高和体重有关系,但无确切关系。一般考察两个变量之间或是两组变量之间的相关关系

基本思想:在每组变量中找到变量的线性组合,使得两组线性组合之间具有最大的相关系数。挑选和这对线性组合不相关的线性组合,使其配对,并选取相关系数最大的一对,如此进行,直至两组变量之间的相关性被提取完。

4.分类分析模型

4.1判别分析

1)判别分析是多元统计分析中判别样品所属类型的一种统计分析方法,通常设法建立一个判别函数,然后通过该判别函数来判别;①根据判别函数的形式可分为:线性判别、非线性判别;②根据处理变量的方法可分为:逐步判别、序贯判别等;③根据判别准则可分为:距离判别;Fisher判别;贝叶斯判别等

2)判别准则:衡量新样品与各已知组别接近程度的理论依据和方法准则

①距离判别法(直观判别):样品和哪个总体最近就判断其为哪个总体,具体有:马氏距离;相对距离
②Fisher判别法(典型判别):转换坐标系统,从X空间映射到Y空间,使得Y空间的系统坐标方向尽量选择能使不同类别的样本尽可能分开的方向,然后再在Y空间上使用马氏距离判别法
③贝叶斯判别法:相比于距离判别法只考虑了待分类样本到各个类别中心的距离,贝叶斯判别法还考虑了已知类别的分布特征

4.2基于机器学习的分类模型

1)支持向量机 2)逻辑回归 3)决策树与回归树 4)k近邻 5)随机森林(组合多棵决策树,Bagging、Boosting)6)朴素贝叶斯

5.聚类分析模型

1)聚类分析的定义:将数据按照它们性质上的亲疏程度进行分类的分析方法,是典型的无监督分析方法

2)如何描述个体亲属程度

①个体间差异度:基于距离的亲疏关系度量

将每个变量看成多维空间上的一个点,在多维空间中定义点与点、类与类之间的距离,用距离描述变量间的亲疏程度

Ⅰ.连续型变量距离:

  • 欧氏距离:欧式空间中点点,点面间距
  • 曼哈顿距离: d 12 = ∑ k = 1 n ∣ x 1 k − x 2 k ∣ d_12=\\sum_k=1^n|x_1k-x_2k| d12=k=1nx1kx2k
  • 切比雪夫距离: d 12 = m a x k ( ∣ x 1 k − x 2 k ∣ ) d_12=max_k(|x_1k-x_2k|) d12=maxk(x1kx2k)
  • 闵可夫斯基距离: d 12 = [ ∑ k = 1 n ∣ x 1 k − x 2 k ∣ p ] 1 k d_12=[\\sum_k=1^n |x_1k-x2k|^p]^\\frac 1 k d12=[k=1nx1kx2kp]k1
  • 标准欧氏距离
  • 马氏距离

Ⅱ.离散型变量距离:卡方距离;Phi距离;二值变量距离;Jaccard系数

②个体间相似度:基于相似系数的相似性度量

计算变量间的简单相关系数或等级相关系数,用相似系数描述变量间的亲疏程度

  • 余弦相似度: c o s θ = ∑ k x 1 k x 2 k ∑ k x 1 k 2 ∑ k x 2 k 2 cosθ= \\frac \\sum_k x_1kx_2k \\sqrt \\sum_k x_1k^2 \\sqrt \\sum_k x_2k^2 cosθ=kx1k2 kx2k2 kx1kx2k
  • 汉明距离:两个等长字符串对应位置不同字符的个数
  • Jaccard相似系数/Jaccard距离:衡量两个集合相似度的一种指标/用两个集合中不同元素占所有元素的比例衡量两个集合的区分度
  • 皮尔森相关系数

3)如何描述个体与类、类与类间的亲属关系度量

最远/近距离;组间平均链锁距离;③组内平均链锁距离;④重心距离;⑤离差平方和距离(Ward方法)

4)变量的选择与处理:选取的变量应该与类别相关;数据应先标准化消除量纲对距离的影响;分量之间若存在强线性关系,结果则会偏向于该分量

5)聚类分析的分类

①基于分类对象的分类

  • Q型聚类:对样本个体进行分类,将性质相似的观测样本分在一个类,性质差异大的观测样本分在不同类,结果直观
  • R型聚类:将分量作为分类对象进行聚类,将性质相近的分量聚为一类,找出代表分量达到降维的目的,适用于分量数目多相关性较强的情景

②基于聚类结构的分类

  • 凝聚方式:每个个体自成一体,将最亲密的凝聚成一类,再重新计算个体间的距离,最相近的凝聚成一类,以此类推。随着凝聚过程的进行,每个类内的亲密程度逐渐降低
  • 分解方式:将所有个体看成一个大类,计算类内间距,将彼此间距离最远的个体分离出去,直到每个个体自成一类。分解过程中,每个类内亲密程度逐渐增强

6)聚类有效性评价

①CH指标(Calinski-Harabasz)②DB指标(Davies-Bouldin)③Wint指标(Weighted inter-intra)④KL指标(Krzanowski-Lai)⑤Hart指标(Hartigan)⑥IGP指标(In-Group Proportion)

7)聚类分析方法

①k均值聚类:指定聚类数目K确定K个数据中心,将每个点分到最近的类中,重新计算K个类的中心,要么结束,要么重复上述步骤,直到达到迭代次数或样本距中心点的偏移量小于阈值

②系统聚类法:开始各个样本自成一类,随后将相似样本进行两两合并,合并后重新计算新类与其他类的距离或相近性测度,该过程可以通过一张谱系聚类图描述

③调优法(动态聚类法):先对样本进行初步分类,然后根据分类的损失函数尽可能小的原则对其进行调整,直到分类合理为止

④最优分割法(有序样本聚类):将所有样本看作一类,然后根据某种最优准则将它们分为二类、三类,…,k类为止

⑤模糊聚类法:利用模糊集理论来处理分类问题

⑥图论聚类法:利用图论中最小生成树、内聚子图、顶点游走等方法来处理图像问题

6.结构分析模型

结构分析:对数据中结构的发现,输入是数据,输出是数据中具有某种规律的结构。结构分析的基础是统计分组,将部分与整体的关系作为分析对象,以发现在整体过程中各关键的影响因素及其做用的程度和方向。

1)最短路径

2)

以上是关于初识大数据的主要内容,如果未能解决你的问题,请参考以下文章

初识大数据

初识大数据(一. 什么是大数据)

初识大数据与Hadoop

Hadoop之初识大数据与Hadoop转载

初识大数据(三. 大数据与人工智能的关系)

初识大数据与Python语言——学习笔记