大数据系列之三:大数据体系架构的重要里程碑

Posted ok-ai

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了大数据系列之三:大数据体系架构的重要里程碑相关的知识,希望对你有一定的参考价值。

欧凯惯例:引子

世界上唯一不变的就是变化,大数据的架构也不例外。
这次变化的推动者,多是一些大的商业公司!
首发地址
---

Teradata 美国天睿

技术图片
Teradata这家公司其实挺陌生的,但这并不能让我们忽视其在大数据方面做出的贡献。简单一句描述这家公司的贡献就是:

2008年之前,这家公司以关系型为基础,硬刚大数据,之后意识到数据实在太大大复杂了,终究实现了对非关系型数据的支持。

具体它拿关系型作为对大数据的解决方案硬刚到什么程度呢?拿一个数据说来说明白了,直到2017年,它可以基于其关系型解决方案处理50PB级别的数据。(当然50PB在现在的大数据框架中都是毛毛雨了,不过这也从侧面反应出它对自己产品的自信与不舍)


LexisNexis

技术图片

2000年,这家公司用C++开发了一个分布式文件共享及数据存储查询框架,它可以在节点间处理结构化,半结构化和非结构化数据。2004年,它收购了Seisint,又在2008年收购了ChoicePoint,然后它基于二者的产品在2011年融合成了HPCC系统。HPCC是高性能计算集群的简称。还不错,HPCC是开源的。

其实在这里,我们就可以看到当下主流的大数据处理框架的雏形了,所以这家公司在大数据处理方面的贡献是很大的,这也得意于其管理者的眼光,通过买买买的策略实现技术的融合,推动时代的进步。


不值一提的欧洲核组织

技术图片

CERN欧洲核子研究组织,这里为什么要提到CERN呢?因为它和其它的一些物理实现组织在几十年内积累了大量的数据,而且这些数据相当的精密,随着计算机的发展,它们自然而然的选择了以超级计算机作为这些数据的处理工具。这里反应了大数据的一个侧面,即,假如数据非常精密且内部关系十分紧密,使用分布式并行处理可能并不方便,那只不能求助于超级计算机了,毕竟超级计算机『一个顶俩』。


牛逼哄哄的Google

技术图片

曾经丰田的广告那叫一个牛逼啊『车到山前必有路,有路必有丰田车』,现在,谷歌在互联网办就是这般存在,而且是完全有过之。

2004年,谷歌发布了类似于HPCC的MapReduce,它提出了一个并行处理模型并成功发布了基于此的大数据处理工具。MapReduce包含两个阶段:

  • Map阶段:将数据的查询进行拆分,然后将子查询分散到各个结点,各个结点并行处理各自的查询。
  • Reduce阶段:收集并行结点的相关结果然后再次进行分发。

技术图片

这种设计相当成功,所以后来Apache基于MapReduce框架创建了Hadoop这个开源项目。
2012年,Apache又创建了Spark项目,该项目旨在解决MapReduce中Map阶段后只能跟随Reduce阶段的局限,即可以按需配置多个操作。

大数据处理平台的6C共识

  • Connection(连接:传感器和网络传输)
  • Cloud(云:计算和数据点播)
  • Cyber(网络:模型与存储)
  • Content/Context(内容与背景:意义与内在关系)
  • Community(社区:分享与协作)
  • Customization(定制:个性化与价值)

欧凯惯例:小结

很明显,大数据技术的革新是需求驱动的,而主力就是当代的有实力的技术公司,这里不得不在点名一个谷歌,是真强啊。







以上是关于大数据系列之三:大数据体系架构的重要里程碑的主要内容,如果未能解决你的问题,请参考以下文章

大数据技术系列:图解大数据平台开发

玩转大数据系列之三:数据报表与展示

大数据学习系列之三 ----- HBase Java Api 图文详解

大数据系列|Hive架构和工作原理

大数据之三:几个名词

进阶大数据架构师学习路线