Chapter1 大数据概述
Posted 今晚滿天星
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Chapter1 大数据概述相关的知识,希望对你有一定的参考价值。
1.1 大数据时代
1.1.1第三次信息化浪潮
2010年前后,以云计算、大数据、物联网的首发为标志迎来第三次信息化浪潮。
IT发展史历经的信息化浪潮如下:
1.1.2 大数据时代的到来需要技术支撑
主要表现为:
- 存储设备容量不断增加
- CPU处理能力大幅提升
- 网络带宽不断增加
1.1.3 数据产生方式的变革促进大数据时代到来
第一阶段:运营式系统阶段。实例:购物记录。数据仅由运营系统生成。
第二阶段:用户原创内容阶段。实例:微信。每个网民都成为自媒体,可以向网络发送信息。但到此为止还不足以促进大数据时代到来。
第三阶段:感知式系统阶段。物联网(IoT)的大规模普及,实现了万物互联。物联网底层是感知层,比如摄像头、传感器,这些设备时刻生成大量数据,物联网的兴起促使了大数据时代到来。
1.1.4 大数据的发展历程
1.2 大数据的概念和影响
1.2.1大数据的4V特性
4V特性指velocity、variety、value、volume。
(1)数据量大:
大数据摩尔定律(根据IDC作出的估测,数据一直都在以每年50%的速度增长,也就是说每两年就增长一倍)。
人类在最近两年产生的数据量相当于之前产生的全部数据量。
(2)数据类型繁多:
大数据是由结构化和非结构化数据组成:
- 结构化数据存储在关系型数据库中,只占10%。
- 大部分都是非结构化数据,类型非常多。
(3)处理速度快:
目前很多企业都需要秒级决策。从数据的生成到消耗,时间窗口非常小,可用于生成决策的时间非常少。
1秒定律:这一点和传统的数据挖掘技术有着本质的不同。
(4)价值密度低,商业价值高:
如此大量的数据,很多可能都是没有价值的数据。比如监控摄像头时刻生成大量数据需要进行存储,一旦发生案件时,摄像头存储的视频才有用,但发生案件的几率很小,因此价值密度低很低。
1.2.2大数据的影响
图灵奖获得者Jim Gray博士总结人类在科学研究上,先后经历了实验、理论、计算和数据四种范式。
在思维方式方面,大数据完全颠覆了传统的思维方式:
- 全样而非抽样
大数据时代之前,我们无法保存和分析所有数据,只能统计学采用抽样进行分析,舍弃了很多数据,只抽取一部分数据进行存储、计算、分析。
而现在我们有足够的空间、可以构建服务器集群进行庞大数据处理,就可以做全样的数据分析。 - 效率而非精确
之前在做抽样统计时,需要不断提高算法精度,因为抽样计算的结果误差放到全样上会被放大,容易超出许可范围。
而全样分析不存在误差放大的问题,不追求精确度,而追求时效性、追求效率。 - 相关而非因果
更多的追求事物的相关性,而不关注因果关系。不问为什么,只关注关联性。
1.3 大数据的应用
1.3.1大数据的应用领域
1.3.2举例:流感预测
谷歌使用大数据预测流感趋势,利用搜索引擎实时收集用户搜索的信息。
通常遇到疾病时,会首先使用搜索引擎搜索,然后再去医院,这些搜索关键词构成了庞大的数据库。
1.4 大数据的关键技术
1.4.1大数据技术的层次
下图为大数据技术的层次,最核心的大数据技术在数据存储与管理、数据处理与分析这两个层面。
1.4.2两大核心技术
两大核心技术指的是分布式存储、分布式处理。
分布式存储:解决海量数据的存储问题。单机无法存储海量数据时,就借助集群进行分布式存储。
分布式处理:解决海量数据的处理问题。单机无法高效完成海量数据处理时,就使用集群进行分布式处理。
1.4.3大数据技术以谷歌公司技术为代表
1.4.4大数据计算模式
目前有许多大数据相关产品存在,这些产品可能用于批处理、实时计算、交互式计算,但是没有任何一款产品可以满足所有需求。因此不同计算模式需要使用不同的产品。
典型的计算模式可以分为四种:
-
批处理计算:典型代表为MapReduce、Spark。
用于解决大规模数据的批量处理。
不适合做实时交互式计算,做不到秒级响应。
其中Spark实时性比MapReduce更好,并且可以进行迭代计算,比如数据挖掘需要迭代计算时就需要使用Spark。
-
流计算:典型代表为Storm、S4、Flume、Streams、Puma、DStream、SuperMario、银河流数据处理平台等。
需要进行实时处理,给出实时响应,否则分析结果就会失去商业价值。
流计算框架如下:
-
图计算:典型代表为Pregel、GraphX、Giraph、PowerGraph、Hama、GoldenOrb等。
处理大规模图结构数据。
现实生活中比如社交网络、交通网络都可以转成图结构进行处理。
-
查询分析计算:典型代表为Hive、Dremel、Cassandra、Impala等。
用于大规模数据的存储管理和查询分析。
计算模式总结表如下:
1.5 大数据与云计算、物联网的关系
1.5.1云计算
云计算要解决两大核心问题:即海量数据存储和处理问题。
云计算典型特征:虚拟化、多租户。
云计算的概念:通过网络以服务的方式为用户提供非常廉价的IT资源。
云计算的优势:企业不需要自建IT基础设施,可以租用云端资源。
云计算的三种模式:公有云、混合云、私有云。
公有云举例:百度云,面向所有用户。
私有云举例:电信、移动,面向企业内部。
混合云:部分给自己,部分给公众。
三种云服务:IaaS、PaaS、SaaS
- IaaS:基础设置即服务
将基础设施(计算资源和存储)作为服务出租。
比如亚马逊提供了EC2,可以直接购买并在环境上安装系统和业务等,平台已经提供CPU等资源。 - PaaS:平台即服务
个体没有能力独立开发云计算产品,不具备环境。
比如新浪搭建了云计算分布式开发平台Sina App Engine,可以购买后在新浪上开发、部署云服务。 - SaaS:软件即服务
将软件作为服务出售。
典型案例:云财务软件。
从一个集中的系统部署软件,使之在一台本地计算机上(或从云中远程地)运行的一个模型。由于是计量服务,SaaS允许出租应用程序,并计时收费。
云计算关键技术:
- 多租户:同时为多个用户服务。
- 虚拟化:上机操作均基于Linux环境,可以利用虚拟化技术,再虚拟机上装Linux系统。比如虚拟专用网VPN。
云计算数据中心:数据中心是云计算的温床。各种数据和应用都位于数据中心。
全球各地大量建设数据中心:
数据中心投资非常高昂、耗能非常大,因此必需建设在地址结构稳定、气候凉爽的地方。
政务云、教育云、中小企业云、医疗云都是云计算的应用。
1.5.2物联网
物联网:IoT(The Internet of Things)
物联网概念:物物相连的互联网,是互联网的延伸。
物联网层次架构:
典型物联网应用:智能公交。在公交车上的JPS定位相当于感知层,通过沿途基站传输信息,用户通过因特网访问。
物联网的关键技术:
- 识别与感知技术(二维码、RFID、传感器等)
- 网络与通信技术
- 数据挖掘与融合技术等。
物联网应用:
1.5.3大数据、云计算、物联网的关系
三者相辅相成,既有联系又有区别。
以上是关于Chapter1 大数据概述的主要内容,如果未能解决你的问题,请参考以下文章