Google Dataproc 是不是支持 Apache Impala?
Posted
技术标签:
【中文标题】Google Dataproc 是不是支持 Apache Impala?【英文标题】:Does Google Dataproc support Apache Impala?Google Dataproc 是否支持 Apache Impala? 【发布时间】:2019-05-30 20:07:10 【问题描述】:我是使用云服务的新手,在 Google 的云平台上导航非常令人生畏。谈到 Google Dataproc,他们确实在宣传 Hadoop、Spark 和 Hive。
我的问题是,Impala 是否可用?
我想使用所有这四个工具做一些基准测试项目,我需要 Apache Impala 和 Spark/Hive。
【问题讨论】:
【参考方案1】:不,DataProc 是一个支持 Hadoop、Spark、Hive 和 pig 的集群;使用默认图像。
查看此链接以获取有关 DataProc 的本机图像列表的更多信息
https://cloud.google.com/dataproc/docs/concepts/versioning/dataproc-versions
【讨论】:
感谢您的回答。我自己确实找到了这个页面,想知道它是否仅限于那里列出的那些工具。看起来我要使用 AWS :)【参考方案2】:您也可以尝试使用另一个新的 Dataproc 实例,而不是使用默认值。
例如,您可以使用HUE (Hadoop User Experience)
创建一个Dataproc 实例,这是一个处理Cloudera 构建的Hadoop 集群的接口。这里的优点是 HUE 作为默认组件 Apache Impala。它还有 Pig、Hive 等。所以它是使用 Impala 的一个很好的解决方案。
另一种解决方案是从一开始就创建自己的集群,但这不是一个好主意(至少您想自定义所有内容)。通过这种方式,您可以安装 Impala。
这是一个链接,了解更多信息:
https://github.com/GoogleCloudPlatform/dataproc-initialization-actions/tree/master/hue
【讨论】:
Impala 与 Hue 不同,初始化 Hue 将不会安装 Impala。【参考方案3】:Dataproc 为您提供对 master 和 worker 的 SSH 访问,因此可以安装其他软件,根据 Impala 文档,您需要:
确保Impala Requirements。 Set up Impala on a cluster by building from source.请记住,建议为每个 DataNode 安装 impalad 守护程序。
【讨论】:
【参考方案4】:Cloud Dataproc 在集群上默认支持 Hadoop、Spark、Hive、Pig。您可以安装更多可选支持的组件,例如 Zookeeper、Jyputer、Anaconda、Kerberos、Druid 和 Presto(您可以找到完整列表 here)。此外,您还可以使用initialization-actions 安装大量开源组件。
Impala 不支持作为可选组件,并且还没有针对它的初始化操作脚本。您可以让它在带有 HDFS 的 Dataproc 上工作,但要让它在 GCS 上工作可能需要进行重大更改。
【讨论】:
以上是关于Google Dataproc 是不是支持 Apache Impala?的主要内容,如果未能解决你的问题,请参考以下文章
来自 DataProc 集群的 Google Cloud Sdk
如何在 Google Cloud Platform 上查看 Dataproc 作业的输出文件