使用 pentaho 水壶下载文件

Posted

技术标签:

【中文标题】使用 pentaho 水壶下载文件【英文标题】:Downloading files with pentaho kettle 【发布时间】:2013-08-09 10:26:45 【问题描述】:

我正在尝试创建一个可以通过 HTTP 下载多个文件的作业。这些文件的列表位于 mysql 表中。我通过以下步骤创建了一个主要作业:开始、设置变量、FILELIST(我创建的转换)、DOWNLOAD(我创建的作业)和成功。

转换 FILELIST 包含以下步骤:输入表并将行复制到结果(此转换与数据库通信并将 URL 列表提供给主要任务)。任务 DOWNLOAD 包含以下步骤:开始、http、成功(此任务应将文件下载到我的计算机)。

这一切都不起作用,为什么?有人知道做同样事情的更好方法吗?

【问题讨论】:

很遗憾,这里没有足够的详细信息来帮助您。至少,您的工作和转型的屏幕截图将有助于更清楚地了解您在做什么。另外,您说“这一切都行不通”。以什么方式?您收到错误消息吗?如果有,是什么? 【参考方案1】:

我希望您具备 Kettle 的基本知识。因此,从数据库中获取某些东西的列表可能不是问题。我猜你一直坚持让 Kettle 下载并保存所有这些文件 - 有效地运行一个循环。

下载文件的步骤是“HTTP”,它只在 Jobs 中可用。所以诀窍是为每个文件执行一个作业(包含下载的 HTTP 步骤) - 或使用 Kettle-lingo“为每一行执行”。 URL 作为从字段中设置的参数传递到下载作业中。

如果这对您没有帮助,请查看以下链接,我将在其中详细介绍如何完成该壮举(这是一种壮举 - 但不应该是这样):

http://www.joyofdata.de/blog/batch-downloading-files-with-pentaho-kettle/

【讨论】:

以上是关于使用 pentaho 水壶下载文件的主要内容,如果未能解决你的问题,请参考以下文章

由于缺少插件,Pentaho 水壶无法运行转换

如何使用 pentaho 水壶查看 http 标头

在 pentaho CDE 中通过kettleTransFromFile 将参数传递给 pentaho 水壶

在 pentaho 水壶勺中等待

Pentaho 水壶勺日期操作

使用 pentaho 删除文件