Chapter1 大数据概述

Posted 今晚滿天星

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Chapter1 大数据概述相关的知识,希望对你有一定的参考价值。

1.1 大数据时代

1.1.1第三次信息化浪潮

2010年前后,以云计算、大数据、物联网的首发为标志迎来第三次信息化浪潮。

IT发展史历经的信息化浪潮如下:

1.1.2 大数据时代的到来需要技术支撑


主要表现为:

  1. 存储设备容量不断增加
  2. CPU处理能力大幅提升
  3. 网络带宽不断增加

1.1.3 数据产生方式的变革促进大数据时代到来

第一阶段:运营式系统阶段。实例:购物记录。数据仅由运营系统生成。
第二阶段:用户原创内容阶段。实例:微信。每个网民都成为自媒体,可以向网络发送信息。但到此为止还不足以促进大数据时代到来。
第三阶段:感知式系统阶段。物联网(IoT)的大规模普及,实现了万物互联。物联网底层是感知层,比如摄像头、传感器,这些设备时刻生成大量数据,物联网的兴起促使了大数据时代到来。

1.1.4 大数据的发展历程

1.2 大数据的概念和影响

1.2.1大数据的4V特性

4V特性指velocity、variety、value、volume。

(1)数据量大:
大数据摩尔定律(根据IDC作出的估测,数据一直都在以每年50%的速度增长,也就是说每两年就增长一倍)。
人类在最近两年产生的数据量相当于之前产生的全部数据量。

(2)数据类型繁多:
大数据是由结构化和非结构化数据组成:

  • 结构化数据存储在关系型数据库中,只占10%。
  • 大部分都是非结构化数据,类型非常多。

(3)处理速度快:
目前很多企业都需要秒级决策。从数据的生成到消耗,时间窗口非常小,可用于生成决策的时间非常少。
1秒定律:这一点和传统的数据挖掘技术有着本质的不同。

(4)价值密度低,商业价值高:
如此大量的数据,很多可能都是没有价值的数据。比如监控摄像头时刻生成大量数据需要进行存储,一旦发生案件时,摄像头存储的视频才有用,但发生案件的几率很小,因此价值密度低很低。

1.2.2大数据的影响

图灵奖获得者Jim Gray博士总结人类在科学研究上,先后经历了实验、理论、计算和数据四种范式。

在思维方式方面,大数据完全颠覆了传统的思维方式:

  1. 全样而非抽样
    大数据时代之前,我们无法保存和分析所有数据,只能统计学采用抽样进行分析,舍弃了很多数据,只抽取一部分数据进行存储、计算、分析。
    而现在我们有足够的空间、可以构建服务器集群进行庞大数据处理,就可以做全样的数据分析。
  2. 效率而非精确
    之前在做抽样统计时,需要不断提高算法精度,因为抽样计算的结果误差放到全样上会被放大,容易超出许可范围。
    而全样分析不存在误差放大的问题,不追求精确度,而追求时效性、追求效率。
  3. 相关而非因果
    更多的追求事物的相关性,而不关注因果关系。不问为什么,只关注关联性。

1.3 大数据的应用

1.3.1大数据的应用领域

1.3.2举例:流感预测

谷歌使用大数据预测流感趋势,利用搜索引擎实时收集用户搜索的信息。
通常遇到疾病时,会首先使用搜索引擎搜索,然后再去医院,这些搜索关键词构成了庞大的数据库。

1.4 大数据的关键技术

1.4.1大数据技术的层次

下图为大数据技术的层次,最核心的大数据技术在数据存储与管理、数据处理与分析这两个层面。

1.4.2两大核心技术

两大核心技术指的是分布式存储、分布式处理。

分布式存储:解决海量数据的存储问题。单机无法存储海量数据时,就借助集群进行分布式存储。

分布式处理:解决海量数据的处理问题。单机无法高效完成海量数据处理时,就使用集群进行分布式处理。

1.4.3大数据技术以谷歌公司技术为代表

1.4.4大数据计算模式

目前有许多大数据相关产品存在,这些产品可能用于批处理、实时计算、交互式计算,但是没有任何一款产品可以满足所有需求。因此不同计算模式需要使用不同的产品。
典型的计算模式可以分为四种:

  1. 批处理计算:典型代表为MapReduce、Spark。
    用于解决大规模数据的批量处理
    不适合做实时交互式计算,做不到秒级响应。
    其中Spark实时性比MapReduce更好,并且可以进行迭代计算,比如数据挖掘需要迭代计算时就需要使用Spark。

  2. 流计算:典型代表为Storm、S4、Flume、Streams、Puma、DStream、SuperMario、银河流数据处理平台等。
    需要进行实时处理,给出实时响应,否则分析结果就会失去商业价值。

    流计算框架如下:

  3. 图计算:典型代表为Pregel、GraphX、Giraph、PowerGraph、Hama、GoldenOrb等。
    处理大规模图结构数据。
    现实生活中比如社交网络、交通网络都可以转成图结构进行处理。

  4. 查询分析计算:典型代表为Hive、Dremel、Cassandra、Impala等。
    用于大规模数据的存储管理和查询分析。

计算模式总结表如下:

1.5 大数据与云计算、物联网的关系

1.5.1云计算

云计算要解决两大核心问题:即海量数据存储和处理问题。

云计算典型特征:虚拟化多租户

云计算的概念:通过网络以服务的方式为用户提供非常廉价的IT资源。

云计算的优势:企业不需要自建IT基础设施,可以租用云端资源。

云计算的三种模式:公有云、混合云、私有云。
公有云举例:百度云,面向所有用户。
私有云举例:电信、移动,面向企业内部。
混合云:部分给自己,部分给公众。

三种云服务:IaaS、PaaS、SaaS

  1. IaaS:基础设置即服务
    将基础设施(计算资源和存储)作为服务出租。
    比如亚马逊提供了EC2,可以直接购买并在环境上安装系统和业务等,平台已经提供CPU等资源。
  2. PaaS:平台即服务
    个体没有能力独立开发云计算产品,不具备环境。
    比如新浪搭建了云计算分布式开发平台Sina App Engine,可以购买后在新浪上开发、部署云服务。
  3. SaaS:软件即服务
    将软件作为服务出售。
    典型案例:云财务软件。
    从一个集中的系统部署软件,使之在一台本地计算机上(或从云中远程地)运行的一个模型。由于是计量服务,SaaS允许出租应用程序,并计时收费。

云计算关键技术:

  • 多租户:同时为多个用户服务。
  • 虚拟化:上机操作均基于Linux环境,可以利用虚拟化技术,再虚拟机上装Linux系统。比如虚拟专用网VPN。

云计算数据中心:数据中心是云计算的温床。各种数据和应用都位于数据中心。

全球各地大量建设数据中心:

数据中心投资非常高昂、耗能非常大,因此必需建设在地址结构稳定、气候凉爽的地方。

政务云、教育云、中小企业云、医疗云都是云计算的应用。

1.5.2物联网

物联网:IoT(The Internet of Things)

物联网概念:物物相连的互联网,是互联网的延伸。

物联网层次架构:

典型物联网应用:智能公交。在公交车上的JPS定位相当于感知层,通过沿途基站传输信息,用户通过因特网访问。

物联网的关键技术:

  1. 识别与感知技术(二维码、RFID、传感器等)
  2. 网络与通信技术
  3. 数据挖掘与融合技术等。

物联网应用:

1.5.3大数据、云计算、物联网的关系

三者相辅相成,既有联系又有区别。

以上是关于Chapter1 大数据概述的主要内容,如果未能解决你的问题,请参考以下文章

http 学习 1-1 chapter1-HTTP概述

大数据入门-大数据技术概述

大数据入门-大数据技术概述

大数据概述

大数据概述

1.大数据概述