在 Amazon EMR 上安装 Impala 2.3

Posted

技术标签:

【中文标题】在 Amazon EMR 上安装 Impala 2.3【英文标题】:Installing Impala 2.3 on Amazon EMR 【发布时间】:2016-03-17 11:06:17 【问题描述】:

我看到 Impala 2.3 仅在 Cloudera CDH 5.5 及更高版本上受支持。 Impala 2.2 可以安装在 Amazon EMR 上,因为 GitHub 上有可用的 Bootstrap 脚本并且您不需要安装 Cloudera。

但是,我看不到任何在 Amazon EMR 上安装 Cloudera CDH 5.5 或 5.6 的方法。我想安装 Impala 2.3,有什么方法可以?

【问题讨论】:

【参考方案1】:

好吧,只要“没有提供问题的答案”,我之前的答案就被删除了。我不会争论是否最好对这个问题有一个部分错误的答案,或者如果没有根据的明确声明是一个很好的答案:/。

无论如何,我不会放弃:)

是的,可以在纸上安装“任何东西”

启动 EMR 集群后,所有实例都将显示在您的 EC2 控制台上。唯一的事情是您必须小心分配正确的权限以通过 SSH 访问您的实例。我的建议是创建一个具有访问权限的特定安全组,并使用集群的高级配置将此额外的安全组分配给实例。 通过正确的配置,您可以 ssh 进入任何实例并安装任何东西(如果您的 VPC 配置正确,您应该能够 scp 任何文件或从 Internet 下载)。请注意,用户将是“hadoop”而不是“ec2-root”,但这已记录在 EMR 用户指南中。

请记住,集群已“终止”,因此 EMR 实例是不稳定的,安装不会在集群终止后继续存在。

另一方面,使用最新版本的 EMR AMI 和 AWS 的最新功能(我认为一直如此,但现在没关系)您应该能够创建一些操作在引导程序上并安装您想要的任何东西。

使用集群的“高级配置”,您可以访问要在集群上执行的“引导”操作。您甚至可以根据节点类型(主节点、核心节点、任务)执行不同的操作。您应该将脚本(和/或 jar 文件)存储在 S3 存储桶上,并使该存储桶可用于您的集群。理论上,您可以在这些包含 EMR 集群的 EC2 实例上安装 Impala,但我不确定这是否可行。

更多信息可以阅读http://docs.aws.amazon.com//emr/latest/ManagementGuide/emr-plan-bootstrap.html

对于以前版本的 EMR AMI 而不是最新版本的 Impala,您可以阅读 https://github.com/awslabs/emr-bootstrap-actions/tree/master/impala

谢谢马克,你强迫我更好地阐述我的评论。

【讨论】:

【参考方案2】:

不,不可能在 EMR 上“安装”任何东西,因为它是 AWS 提供的 PaaS。但是,如果您的目标是在 AWS 上运行较新版本的 Impala,则有一个用于安装 CDH 5.x(包括 Impala)的 AWS 快速入门路径,可以使该过程相对简单。

http://aws.amazon.com/quickstart/

【讨论】:

我只想知道有什么方法可以在 Amazon EMR 上安装最新版本的 Impala 吗?谢谢 不,没有。但正如我指出的,您可以在 AWS 上安装自己的集群。 谢谢...只有 1 个问题,是否有计划在 Amazon EMR 上包含最新版本的 Impala?到目前为止,Amazon EMR 上只有 Impala 2.2 支持。但是有没有计划在 Amazon EMR 上包含 Impala 2.5 ?? 你必须向亚马逊询问。 :)

以上是关于在 Amazon EMR 上安装 Impala 2.3的主要内容,如果未能解决你的问题,请参考以下文章

如何在 Amazon EMR 上引导安装 Python 模块?

尝试为在 Amazon EMR 上运行的 Pyspark 安装 pandas

如何设置支持 Impala 的 EMR 集群?

如何在 Amazon EMR 上将连接器添加到 presto

在 Amazon EMR-4 上的 Tez 上运行 Pig

在 Impala 中创建外部表 - 错误