GreenPlum 与hadoop啥关系

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了GreenPlum 与hadoop啥关系相关的知识,希望对你有一定的参考价值。

GreenPlum的组件分成三个部分MASTER/SEGMENT以及MASTER与SEGMENT之间的高效互联技术GNET。其中MASTER和SEGMENT本身就是独立的数据库SERVER。不同之处在于,MASTER只负责应用的连接,生成并拆分执行计划,把执行计划分配给SEGMENT节点,以及返回最终结果给应用,它只存储一些数据库的元数据,不负责运算,因此不会成为系统性能的瓶颈。这也是GREENPLUM与传统MPP架构数据库的一个重要区别。 SEGMENT节点存储用户的业务数据,并根据得到执行计划,负责处理业务数据。也就是用户关系表的数据会打散分布到每个SEGMENGT节点。当进行数据访问时,首先所有SEGMENT并行处理与自己有关的数据,如果需要segment可以通过进行innterconnect进行彼此的数据交互。 segment节点越多,数据就会打的越散,处理速度就越快。因此与SHARE ALL数据库集群不同,通过增加SEGMENT节点服务器的数量,GREENPLUM的性能会成线性增长。
GREENPLUM是典型关系型数据库产品,是面向查询的关系型数据库,它的
特点主要就是查询速度快,数据装载速度快,批量DML处理快。而且性能
可以随着硬件的添加呈线性增加,拥有非常良好的可扩展性。因此,它主
要适用于面向分析的应用。GreenPlum基于 Apache MADLib 的高级机器
学习功能,支持快速复杂查询分析,满足各种BI用户需求。
所以,greenplum是分布式数据库系统。

apache hadoop是大规模分布式计算的框架,涉及分布式存储HDFS,分布式并行计算框架MapReduce,Hadoop Yarn 作业调度和集群资源管理框架,hadoop架构相关的框架HBase,Hive,Pig,ZooKeeper,还有火到爆的spark。
可以看出hadoop更像是一种分布式计算的框架,会有越来越多的应用框架使用hadoop框架完成大数据分析,你甚至可以把Greenplum部署到hadoop上,完成大数据的分析处理。
参考技术A gp的定位是mpp产品,与hadoop的定向不一样,并且处于市场竞争关系。gp大数据并行处理的时延低,主要用来做并发查询与即席查询。而hadoop从数据的安全性,数据处理吞吐已经数据量为重,处理数据时的时延较高。不过gp是采用master-slave的share nothing架构,集群扩展有限,master很容易成为瓶颈,最多也只能上百个节点。而hadoop的namenode需要存储元数据,所以集群节点也是有上限的本回答被提问者采纳

hadoop与传统的关系型数据库(如oracle)相比,有啥优势及劣势?

hadoop的hdfs支持海量数据量存储 mapreduce支持对海量数据的分布式处理
oracle虽然可以搭建集群 但是当数据量达到一定限度之后查询处理速度会变得很慢 且对机器性能要求很高
其实这两个东西不是同类 hadoop是一个分布式云处理架构,倾向于数据计算 而oracle是一个关系型数据库,倾向于数据存储。要说比较可以比较hbase与oracle。
hbase是一种nosql数据库,列式数据库,支持海量数据存储,支持列的扩展,但是查询操作较复杂,不如oracle这类关系型数据库简单,且只支持一个索引,但是Hbase在表结构设置合理情况下,查询速度跟数据量大小没有太大关系,即数据量的大小不会影响到查询速度,顺便说句Hbase查询速度可以达到ms级
参考技术A hadoop不是数据库
如果你是指它所用的HDFS的话,优势就是支持scale-out形式的扩展,能够适应大量数据的存储和处理,劣势是支持的查询有限,而且不支持事务,主要用于数据的分析,而不能用于OLTP类的应用。
参考技术B 楼上的都这么厉害。叫我怎么回答?

以上是关于GreenPlum 与hadoop啥关系的主要内容,如果未能解决你的问题,请参考以下文章

GreenPlum 与hadoop什么关系?(转)

Greenplum 与远程 Hadoop 连接

大数据与Hadoop之间是啥关系

hadoop是啥意思?与大数据有啥关系?

hdfs和hadoop是啥关系

hadoop和hive之间有啥关系?