HADOOP 中的实时交互式查询
Posted
技术标签:
【中文标题】HADOOP 中的实时交互式查询【英文标题】:Real Time Interactive Queries IN HADOOP 【发布时间】:2016-01-20 10:13:50 【问题描述】:是否可以在 hadoop 中进行实时交互式查询?
当我在 YARN/tez 上使用 Hive 时,延迟仍然太高,即使在 parquet/ocr 上也是如此。
有什么建议吗?
提前致谢
【问题讨论】:
【参考方案1】:Hadoop 不是实时或近实时查询的好选择。在 Hadoop 中运行任何东西的延迟开销都会很高。考虑使用 Apache Spark(因为我希望您有一个批处理系统,就像您使用 Hadoop 一样)。 Spark 使用 spark shell 提供交互式查询。您还可以使用 Impala 对存储在 HDFS 中的数据进行查询。我相信,与 Hive 相比,Impala 提供了更快的查询。
【讨论】:
当然,或者在 spark 上使用 hive,但真正的问题是 spark 上的 hive 仍然在开发分支中,对于 impala 它可以有超过 50 个用户的并发......所以对于生产模式它是不是最好的选择 考虑直接使用Apache spark?或 Spark Shell 进行交互式查询,具体取决于您的目标。 是的,这是一个解决方案,但大多数公司仍然希望使用 Hive 等传统系统或 tableau 等其他软件以上是关于HADOOP 中的实时交互式查询的主要内容,如果未能解决你的问题,请参考以下文章
如何选择满足需求的SQL on Hadoop/Spark系统