Google Dataproc 是不是支持 Apache Impala?

Posted

技术标签:

【中文标题】Google Dataproc 是不是支持 Apache Impala?【英文标题】:Does Google Dataproc support Apache Impala?Google Dataproc 是否支持 Apache Impala? 【发布时间】:2019-05-30 20:07:10 【问题描述】:

我是使用云服务的新手,在 Google 的云平台上导航非常令人生畏。谈到 Google Dataproc,他们确实在宣传 Hadoop、Spark 和 Hive。

我的问题是,Impala 是否可用?

我想使用所有这四个工具做一些基准测试项目,我需要 Apache Impala 和 Spark/Hive。

【问题讨论】:

【参考方案1】:

不,DataProc 是一个支持 Hadoop、Spark、Hive 和 pig 的集群;使用默认图像。

查看此链接以获取有关 DataProc 的本机图像列表的更多信息

https://cloud.google.com/dataproc/docs/concepts/versioning/dataproc-versions

【讨论】:

感谢您的回答。我自己确实找到了这个页面,想知道它是否仅限于那里列出的那些工具。看起来我要使用 AWS :)【参考方案2】:

您也可以尝试使用另一个新的 Dataproc 实例,而不是使用默认值。

例如,您可以使用HUE (Hadoop User Experience) 创建一个Dataproc 实例,这是一个处理Cloudera 构建的Hadoop 集群的接口。这里的优点是 HUE 作为默认组件 Apache Impala。它还有 Pig、Hive 等。所以它是使用 Impala 的一个很好的解决方案。

另一种解决方案是从一开始就创建自己的集群,但这不是一个好主意(至少您想自定义所有内容)。通过这种方式,您可以安装 Impala。

这是一个链接,了解更多信息:

https://github.com/GoogleCloudPlatform/dataproc-initialization-actions/tree/master/hue

【讨论】:

Impala 与 Hue 不同,初始化 Hue 将不会安装 Impala。【参考方案3】:

Dataproc 为您提供对 master 和 worker 的 SSH 访问,因此可以安装其他软件,根据 Impala 文档,您需要:

确保Impala Requirements。 Set up Impala on a cluster by building from source.

请记住,建议为每个 DataNode 安装 impalad 守护程序。

【讨论】:

【参考方案4】:

Cloud Dataproc 在集群上默认支持 Hadoop、Spark、Hive、Pig。您可以安装更多可选支持的组件,例如 Zookeeper、Jyputer、Anaconda、Kerberos、Druid 和 Presto(您可以找到完整列表 here)。此外,您还可以使用initialization-actions 安装大量开源组件。

Impala 不支持作为可选组件,并且还没有针对它的初始化操作脚本。您可以让它在带有 HDFS 的 Dataproc 上工作,但要让它在 GCS 上工作可能需要进行重大更改。

【讨论】:

以上是关于Google Dataproc 是不是支持 Apache Impala?的主要内容,如果未能解决你的问题,请参考以下文章

暂停 Dataproc 集群 - Google 计算引擎

来自 DataProc 集群的 Google Cloud Sdk

从 Google 的 dataproc 中读取 S3 数据

如何在 Google Cloud Platform 上查看 Dataproc 作业的输出文件

Google Cloud Dataproc 删除 BigQuery 表不起作用

使用 google-cloud-python API 访问 Dataproc 时出现无效区域错误