大数据概述
Posted adragon
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了大数据概述相关的知识,希望对你有一定的参考价值。
大数据概述
题外话(提两个概念)
- 分布式:以缩短单个任务的执行时间来提高效率的。
- 集群:集群则是通过提高单位时间内执行的任务数来提高效率。
例如:
如果一个任务由10个子任务组成,每个子任务单独执行需1小时,则在一台服务器上执行改任务需10小时。
采用分布式方案,提供10台服务器,每台服务器只负责处理一个子任务,不考虑子任务间的依赖关系,执行完这个任务只需一个小时。(这种工作模式的一个典型代表就是Hadoop的Map/Reduce分布式计算模型)
而采用集群方案,同样提供10台服务器,每台服务器都能独立处理这个任务。假设有10个任务同时到达,10个服务器将同时工作,10小后,10个任务同时完成,这样,整身来看,还是1小时内完成一个任务
集群提供了一下两个关建特性:
- 可扩展性
- 高可用性
集群有两大能力保证了之前说的集群的两大特性 - 负载均衡
- 错误恢复
实现集群具有两大技术: - 内部通讯
- 集群地址
这里只是简单的介绍分布式和集群和区别,以及各自的定义。具体网上查找
区别:
- 分布式中的每一个节点,都可以做集群。 而集群并不一定就是分布式的
- 分布式的每一个节点,都完成不同的业务,一个节点垮了,那这个业务就不可访问了,
有一个组织性,一台服务器垮了,其它的服务器可以顶上来。
4V特征:
? volume:量大
? 海量的数据模型
? variety:种类多
? 因为数据源很多,数据关联紧密
? velocity:速度
? 数据分析速度要快,才有使用价值。
? value:价值
? 数据挖掘,数据量越大,数据挖掘难度就越大,同时得到的价值也就越大
生活中的例子:
? 点球大战
? 电商买假货给谁
大数据要解决的问题:
? 如图:
大数据涉及到的技术:
- 数据采集
- 数据存储
- 数据处理/分析/挖掘
- 可视化(前面都把数据采集存储并且处理好了,需要把数据展示给别人看)
大数据在技术架构上带来的挑战
对现有的数据库管理技术的挑战(即便是现在数据库有集群的概念,但是对TB级别的数据存储还是压力很大)
经典数据库技术并没有考虑数据的多类别(一般都是结构化的定义一张表,比如人的信息表,)
实时性的技术挑战(数据所产生的价值,是随着时间的流逝而大大降低的,所以越快处理越好,比如电商网站的一个实时的推送)
网络架构,数据中心,运维的挑战(每天产生的数据量是爆炸式的增长的,如何存储,运维很关键)
其他挑战
- 数据隐私
- 数据源的复杂多样
如何对大数据进行存储和分析
- 存储容量 -----》Google大数据技术 :GFS //对应hdfs
- 读写速度 -----》Google大数据技术 :BigTable //对应 hbase
- 计算效率 -----》Google大数据技术 :MapReduce //对应mapreduce
。。。。。
但是Google只有技术论文,没有开源代码。所以就有了hadoop
以上是关于大数据概述的主要内容,如果未能解决你的问题,请参考以下文章