Apache Tajo 和 Apache hive 之间的实际区别是啥

Posted

技术标签:

【中文标题】Apache Tajo 和 Apache hive 之间的实际区别是啥【英文标题】:What is actual difference between Apache Tajo and Apache hiveApache Tajo 和 Apache hive 之间的实际区别是什么 【发布时间】:2016-04-12 18:55:52 【问题描述】:

最近正在开发 Apache Tajo 项目。该项目的目标是成为“Hadoop 中用于处理网络规模数据集的高级开源数据仓库系统”

既然我们已经将 Apache hive 作为 hadoop 的数据仓库,并且现在已经得到了先进和广泛的应用,那么这个新项目对于 hadoop 世界会有多大的用处和不同?

【问题讨论】:

【参考方案1】:

如果您已经在 Hive 上建立了仓库,我很确定您在短期内不必搬走。 Tajo 试图进入的几个领域是:

    低延迟查询(ad-hoc):您可能会使用 Impala/Tez 获得足够快的结果,而 hive-on-spark 将随 CDH 5.7 提供。要获得更快的响应,可以使用不同的 DB(通常不是 DWH)。 完整的 SQL 支持:只要使用 hive 的人已经习惯了 HQL,就没有迫切需要 SQL。虽然您可以很容易地理解为什么拥有完整的 sql 支持会带来好处。

【讨论】:

以上是关于Apache Tajo 和 Apache hive 之间的实际区别是啥的主要内容,如果未能解决你的问题,请参考以下文章

Apache Zeppelin安装及介绍

Zeppelin 学习笔记之 Zeppelin安装和elasticsearch整合

Apache Ranger及Hive权限控制

Apache Spark 上的 Apache Hive

SparkSQL 错误:org.apache.hadoop.hive.ql.metadata.HiveException:无法实例化 org.apache.hadoop.hive.ql.metadat

Apache Pig 与 Hive [关闭]