pentaho水壶无法连接到cloudera cdh4 HDFS

Posted

技术标签:

【中文标题】pentaho水壶无法连接到cloudera cdh4 HDFS【英文标题】:pentaho kettle cannot connect to cloudera cdh4 HDFS 【发布时间】:2014-07-02 06:47:16 【问题描述】:

我正在使用 pentaho 数据集成工具 (Kettle PDI 5.0) 和 Cloudera CDH4 (ver 4.6) virtualbox singlenode 版本。

我正在尝试运行教程Loading Data into HDFS。

但问题是我无法连接到 CDH4 HDFS: Kettle 显示无法连接到 HDFS 的错误。

我已将 active.hadoop.configuration 配置为 cdh42,并且正在从 Windows 8.1 运行spoon.bat 文件

如果有人知道如何设置连接,请提供帮助。

【问题讨论】:

【参考方案1】:

要配置与 Hadoop 的连接,您需要在 /plugins/pentaho-big-data-plugin/hadoop-configurations/YOUR_CONF/ 中提供正确的配置文件。您至少应该提供 core-site.xml

然后你应该编辑 /plugins/pentaho-big-data-plugin/ 中的 plugin.properties 并设置active.hadoop.configuration=YOUR_CONF

我无缘无故没有提到YOUR_CONF:很可能CDH 4.2 和4.6 不兼容!因此,您必须创建自己的配置目录并为其提供库。其中大部分来自 hadoop 及其组件库文件夹,其他的由 pentaho 提供,例如 pentaho-hadoop-shims-hadoop-*.jar

另外,考虑阅读Hadoop Configurations。

【讨论】:

【参考方案2】:

所以同事,很多时候没有连接到目录可能与用户有关。将 haddop 与 pentaho 一起使用时,因为运行 pentaho 的用户必须与拥有 hadoop 内核的用户相同。

例如,如果您在 hadoop 上有一个名为 jluciano 的用户,您需要检查系统上使用相同名称的用户,然后在 pentaho 中运行该进程,这样对目录的访问就会滚动:)。

在那里测试它,任何东西都会警告你

另一件事,尝试使用主机名连接,然后使用 IP

【讨论】:

以上是关于pentaho水壶无法连接到cloudera cdh4 HDFS的主要内容,如果未能解决你的问题,请参考以下文章

由于缺少插件,Pentaho 水壶无法运行转换

无法在 Pentaho 水壶中获取电子邮件附件

Pentaho PDI 9(水壶):厨房无法继续,因为无法加载作业

克隆和构建 Pentaho 水壶

无法使用 Pentaho PDI CE 连接到 MongoDb

无法通过 Pentaho 连接到 oracle。找不到“oracle.jdbc.driver.OracleDriver”