大数据技术原理与应用 第三版 林子雨 期末复习大数据概述 第一章 P2
Posted 头发多多,肆意生长
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了大数据技术原理与应用 第三版 林子雨 期末复习大数据概述 第一章 P2相关的知识,希望对你有一定的参考价值。
大数据技术原理与应用 第三版 林子雨 期末复习(一)大数据概述 第一章 P2
大数据概念(4V)
1 volume (大量)
随着传感器等技术的应用,数据规模逐渐增大,而大数据的规模通常达到PB EB级。
2 variety (多种)
大数据涉及到的数据种类多,包含大量结构化与非结构化数据。
3 velocity (高速)
同一时间下有大量数据产生,并且某些数据价值会随着时间流逝下降,因此大数据对数据处理的实时性要求较高。
4 value (价值)
对于大数据而言价值密度较低,整体价值较高,很多有价值的信息分散于海量数据当中。
三次信息化浪潮(每隔15年发生一次)
信息化浪潮 | 发生时间 | 标志 | 解决问题 |
---|---|---|---|
第一次 | 1980 | 个人计算机 | 信息处理 |
第二次 | 1995 | 互联网 | 信息传输 |
第三次 | 2010 | 大数据、云计算、物联网 | 信息爆炸 |
大数据对于研究思维的影响
1 全样而非抽样
大数据时代,随着数据存储与分析能力的提升,更倾向于使用全样数据而非抽样数据解决问题。
2 效率而非精准
由于使用了全样数据因此在传统分析方法中误差的放大问题得以解决,同时由于数据量的激增所以可以牺牲部分精确性保证效率。
3 相关而非因果
在大数据时代更感兴趣的是事物之间的相关性而非因果性。
数据产生的三个阶段
1 运营式系统阶段(被动)
传统数据产生随着运营信息产生而产生,通常存储于SQL中。
2 原创式系统阶段(主动)
智能手机等移动设备的出现加速了用户原创性内容的产生。
3 感知式系统阶段(自动)
物联网的发展与传感器的应用最终导致了大数据量的产生。
大数据计算模式
大数据计算模式 解决问题 代表产品
批处理 大规模数据的批量处理 MapReduce Spark
流计算 实时流数据 Stom Flink Spark streaming
图计算 大规模图结构 GraphX
查询分析 大规模数据的存储管理和查询分析 Hive
大数据计算模式 | 解决问题 | 代表产品 |
---|---|---|
批处理 | 大规模数据的批量处理 | MapReduce、Spark |
流计算 | 实时流数据 | Stom、Flink、Spark streaming |
图计算 | 大规模图结构 | GraphX |
查询分析 | 大规模数据的存储管理和查询分析 | Hive |
大数据与云计算、物联网
概念
云计算:通过网络获取计算资源。
物联网:物物联网,可以看作互联网的延伸。
云计算种类与服务模式
大数据与云计算、物联网的关系
大数据注重于对海量数据的存储、处理、分析。
云计算注重于通过网络提供廉价计算资源。
物联网侧重实现物物相连,是创新应用开发核心。
本文及后续文章内容均由个人总结,仅用于复习记录,如发现错误请大家伙指正,侵删。
以上是关于大数据技术原理与应用 第三版 林子雨 期末复习大数据概述 第一章 P2的主要内容,如果未能解决你的问题,请参考以下文章
参考大数据厦门大学林子雨编著的《大数据技术原理与应用(第3版)》中第三课《HDFS编程实践(Hadoop3.1.3)》遇到的bug