大数据概述

Posted Jinandawang

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了大数据概述相关的知识,希望对你有一定的参考价值。

一、大数据时代

  1. 大数据时代
    1. 三次信息化浪潮:个人计算机80年-互联网95年-物联网、云计算和大数据(2010年)
    2. 大数据人才
      1. 培训出来的:Java-》大数据
        优点:对于大数据技术的细节会比较清楚
        缺点:缺乏业务,即数据建模能力的缺失(难点:数据模型&数据建模,要求对业务比较了解)
      2. 转型:Java-大数据》
        优点:业务强,对业务熟悉,对数据熟悉;熟悉公司或者业务运转大数据的架构、框架。
        缺点:一般不会一些很细的技术
    3. 大数据技术发展的技术支持:
      1. 总的来说:存储、计算、网络
      2. 存储设备的容量不断增加
      3. CPU处理能力大幅提升
      4. 网络带宽不断增加
        10:2G->3G
        10-11:光进铜退
    4. 大数据时代来临
      1. 业务数据(数据库)-》用户原创内容(智能手机)-》物联网(感知式系统)
      2. 谷歌公司03年发布的三篇文章GFS、MapReduce和BigTable成为后来云计算和Hadoop项目的重要基石
      3. 手机自带的应用:每一个应用后面都有一个大数据方案解决平台->(作用)数据驱动决策

二、大数据的特性(4V)

  1. 大量化(数据量大)、快速化(处理速度非常快)、多样化(非结构化数据)、价值化(价值密度低)【5V:Veracity 真实】
    1. 海量数据规模
      1. 分布式存储
        关系型数据库->结构化数据,但大数据还包括非结构化数据,所以会有分布式文件存储
    2. 大部分是非结构化数据(图像、视频等)
    3. 处理的速度需要非常快
    4. 数据流转极快(数据不断变化: 时效性)
      批处理:如每隔一段时间处理
      流处理:实时处理 
    5. 价值密度低(大数据的数据量大但有价值的信息极少->)
      1. 数据挖掘
      2. 数据分析
      3. how:大数据模型、建模
        业界标杆:阿里

三、大数据的影响

  1. 科学研究
    实验->理论(定律...)->计算时代(计算机)->数据驱动(大数据时代完全由数据驱动发现问题)

  2. 颠覆传统思维方式
    全样而非抽样(对全部的数据进行分析而不是像以前一样做抽样)
    效率而非精确(因为全样,所以不用担心误差被放大,所以更追求时效性)
    相关而非因果(不在乎为什么,只在乎实际表达出来的因果)

  3. 大数据决策
    促进了信息技术与行业的 深度融合

  4. 就业

  5. 人才培养

  6. 应用
    谷歌浏览预测

四、大数据应用场景

  1. 智能推荐
    * 抖音
    * 电商广告推荐
    * 零售(啤酒+纸尿布)
  2. 物流仓储
  3. 保险
    * 风险预测
    * 精准营销
    * 合理定价
  4. 金融
    优质用户画像
  5. 房产
  6. 人工智能+5G+物联网+VR
  7. 《纸牌屋》的拍摄
    互联网数据分析得出报告->时下最强的演员+时下最好的导演+时下最火的小说->投资拍摄获利
  8. 谷歌预测流感
  9. 大数据关键技术(离线&实时)——以Google技术为例
    离线大数据框架
    1. 数据采集
      数据源(web、移动端、物联网)
    2. 数据存储和管理
      数据仓库
      分布式文件系统
  10. 数据可视化
    1. 数据处理和分析(四层数据模型)
      数据挖掘:上述步骤的转换
      1. ODS:原始数据
        ->数据挖掘->
      2. DWD:经过初步汇总、数据清洗等处理的数据
        ->使用MapReduce或者Hive(开发存储过程程&自定义函数)->
      3. DWS:根据业务初级汇总的数据
      4. ADS:业务数据
    2. 数据隐私和安全
      1. 数据治理
        1. 监控(文件,批处理任务)
        2. 数据画像(数据的流动过程)
        3. 元数据管理
  11. 实时大数据框架
    数据源-》消息处理队列-》流计算(内存运算)-》业务数据存储
  12. 两大核心技术
    分布式存储
    分布式处理
    1. 批处理(不满足时效性)
      MapReduce
      Spark(比起MP可以高效迭代)
    2. 流计算(实时)
      代表产品:S4+Strom+Flume
    3. 图计算(高效处理图)
    4. 查询分析(交互式查询分析)

五、大数据部门内组织结构

  1. 平台组
    平台搭建、集群运维
  2. 数据仓库组
    ETL、数据分析、数仓建模
  3. 实时组
    实时指标
  4. 数据挖掘组
    算法、推荐系统、用户画像
  5. 报表开发组
    JavaEE、前端

六、云计算与物联网

  1. 云计算
    通过网络以服务的方式为用户提供非常廉价的IT资源。
    1. 特征(4关键技术)
      解决海量数据的 分布式存储 + 分布式计算 问题
      虚拟化、多租户
      数据中心——承载数据的温床
    2. 云的种类
      公有云:如百度云
      私有云:企业内部的云
      混合云:half
    3. 云计算层次模型 
      Infrastructure as a Service——面向网络架构师
      Platform as a Service————面向应用开发者
      Software as a Service————面向用户
  2. 物联网IOT
    The Internet of Things 互连网把人、物联系在一起
    1. 感知层
      传感器、摄像头、读写器...
    2. 网络层
      电信网、互联网、电网、专用网...
    3. 处理层
      网络管理平台、信息处理平台、服务支撑平台、业务支撑平台...
    4. 应用层
      智能交通、智能工业、智能家居...
    5. 关键技术
      识别和感知技术(二维码、条形码...)
      嵌入式(芯片RFID...)
    6. 应用
      智能交通、智能工业、智能农业...
  3. 大数据、云计算和物联网的关系
    * 云计算提供分布式计算能力(存储&管理)
    * 大数据解决方案平台(数据挖掘)
    * 物联网(产生数据)
    1. 传感器-》嵌入式-》网络通信-》服务端(数据爆炸增长)-》数据库

以上是关于大数据概述的主要内容,如果未能解决你的问题,请参考以下文章

大数据Hadoop|MapRedece|Yarn

大数据之Hadoop(MapReduce): MapReduce概述

大数据—Hadoop(入门篇一)

大数据技术与架构——大数据处理架构Hadoop(上)

贵阳如何学习大数据?大数据学习路线安排

贵阳如何学习大数据?大数据学习路线安排