pentaho水壶无法连接到cloudera cdh4 HDFS
Posted
技术标签:
【中文标题】pentaho水壶无法连接到cloudera cdh4 HDFS【英文标题】:pentaho kettle cannot connect to cloudera cdh4 HDFS 【发布时间】:2014-07-02 06:47:16 【问题描述】:我正在使用 pentaho 数据集成工具 (Kettle PDI 5.0) 和 Cloudera CDH4 (ver 4.6) virtualbox singlenode 版本。
我正在尝试运行教程Loading Data into HDFS。
但问题是我无法连接到 CDH4 HDFS: Kettle 显示无法连接到 HDFS 的错误。
我已将 active.hadoop.configuration 配置为 cdh42,并且正在从 Windows 8.1 运行spoon.bat 文件
如果有人知道如何设置连接,请提供帮助。
【问题讨论】:
【参考方案1】:要配置与 Hadoop 的连接,您需要在 /plugins/pentaho-big-data-plugin/hadoop-configurations/YOUR_CONF/ 中提供正确的配置文件。您至少应该提供 core-site.xml。
然后你应该编辑 /plugins/pentaho-big-data-plugin/ 中的 plugin.properties 并设置active.hadoop.configuration=YOUR_CONF
。
我无缘无故没有提到YOUR_CONF:很可能CDH 4.2 和4.6 不兼容!因此,您必须创建自己的配置目录并为其提供库。其中大部分来自 hadoop 及其组件库文件夹,其他的由 pentaho 提供,例如 pentaho-hadoop-shims-hadoop-*.jar。
另外,考虑阅读Hadoop Configurations。
【讨论】:
【参考方案2】:所以同事,很多时候没有连接到目录可能与用户有关。将 haddop 与 pentaho 一起使用时,因为运行 pentaho 的用户必须与拥有 hadoop 内核的用户相同。
例如,如果您在 hadoop 上有一个名为 jluciano 的用户,您需要检查系统上使用相同名称的用户,然后在 pentaho 中运行该进程,这样对目录的访问就会滚动:)。
在那里测试它,任何东西都会警告你
另一件事,尝试使用主机名连接,然后使用 IP
【讨论】:
以上是关于pentaho水壶无法连接到cloudera cdh4 HDFS的主要内容,如果未能解决你的问题,请参考以下文章
Pentaho PDI 9(水壶):厨房无法继续,因为无法加载作业
无法使用 Pentaho PDI CE 连接到 MongoDb
无法通过 Pentaho 连接到 oracle。找不到“oracle.jdbc.driver.OracleDriver”