HADOOP 中的实时交互式查询

Posted

技术标签:

【中文标题】HADOOP 中的实时交互式查询【英文标题】:Real Time Interactive Queries IN HADOOP 【发布时间】:2016-01-20 10:13:50 【问题描述】:

是否可以在 hadoop 中进行实时交互式查询?

当我在 YARN/tez 上使用 Hive 时,延迟仍然太高,即使在 parquet/ocr 上也是如此。

有什么建议吗?

提前致谢

【问题讨论】:

【参考方案1】:

Hadoop 不是实时或近实时查询的好选择。在 Hadoop 中运行任何东西的延迟开销都会很高。考虑使用 Apache Spark(因为我希望您有一个批处理系统,就像您使用 Hadoop 一样)。 Spark 使用 spark shell 提供交互式查询。您还可以使用 Impala 对存储在 HDFS 中的数据进行查询。我相信,与 Hive 相比,Impala 提供了更快的查询。

【讨论】:

当然,或者在 spark 上使用 hive,但真正的问题是 spark 上的 hive 仍然在开发分支中,对于 impala 它可以有超过 50 个用户的并发......所以对于生产模式它是不是最好的选择 考虑直接使用Apache spark?或 Spark Shell 进行交互式查询,具体取决于您的目标。 是的,这是一个解决方案,但大多数公司仍然希望使用 Hive 等传统系统或 tableau 等其他软件

以上是关于HADOOP 中的实时交互式查询的主要内容,如果未能解决你的问题,请参考以下文章

开源大数据分析利器——Impala

HADOOP HDFS的设计

什么是Spark?它与Hadoop相比有什么不同?

如何选择满足需求的SQL on Hadoop/Spark系统

Spark适用场景以及与Hadoop MapReduce优势对比

spark哪个版本支持scala2.11