ETL 工具:GUI 与框架 [关闭]

Posted

技术标签:

【中文标题】ETL 工具:GUI 与框架 [关闭]【英文标题】:ETL Tools: GUIs vs. Frameworks [closed] 【发布时间】:2012-02-01 21:19:15 【问题描述】:

我听说“ETL 工具”这个词最近被广泛使用,并开始深入了解它们。我找到了一个很棒的 Java 开源 ETL 工具列表 here 并开始阅读它们。

但这让我真的感到困惑。

大多数这些工具(CloverETL、Pentaho 等)都是 GUI 工具。其中一些,例如 Smooks,是纯 Java 框架。我想这是有道理的:一些 ETL 用户可能不是技术人员和/或想使用 GUI 工具来设置转换。其他用户将是希望利用这些工具的原始 ETL 功能的开发人员。

我的问题:这些 GUI 工具与纯 Java 框架相比有什么好处(附加功能等),反之亦然?诸如 CloverETL 和 Pentaho 之类的“主要参与者”GUI 工具——它们自称是 GUI 工具——是否也有 Java API,我可以用它们(以编程方式)完成相同的事情?还是它们是纯 GUI 工具?我在任何地方都找不到 Java Docs(对于任何一个)。

【问题讨论】:

Pentaho Kettle 既可以用作 GUI 工具,也可以用作 Java 框架。查看 Java API 示例的链接:wiki.pentaho.com/display/EAI/… 只是对术语进行评论 - 大多数大型 ETL 工具(Informatica、DataStage、Ab Initio)都不是基于 Java 的,并且具有定制的客户端/服务器架构...短语 ETL 工具通常包含这两个元素。我知道您专门讨论的是基于 Java 的 ETL 解决方案,但只是想澄清一下这是 ETL 工具的一小部分(查看gartner.com/technology/…)。 同意 Raihan。此外,它还可以用作 CLI 工具 (pan.sh)。我们使用 Pentaho Data Integration Designer (Spoon) 设计转换并使用 Pan CLI 工具批量运行它们。 【参考方案1】:

我会说不,使用非 GUI 工具进行 ETL 并没有真正的优势。

在大多数典型情况下,GUI 方法对于 ETL 作业要高效得多,因为这些工具应该为您提供一种快速并且几乎无需编写自定义代码即可完成数据任务的方法>。这是因为从哲学上讲,ETL 平台只不过是一个代码生成平台:绘制在画布上的任务由工具引擎翻译(理想情况下,以最合适的方式)在机器代码中直接执行,无需中间代理.较大的具有复杂的客户端-服务器架构,但基本思想保持不变。

此生成的代码隐藏的深度取决于平台。有些,比如 Pentaho 或 Datastage,确实让用户无法访问;其他的,如 Talend(在类中生成易于嵌入应用程序或直接执行的 Java 代码)或 SAS Data Integration Studio(生成 .sas 文件)使开发人员可以深入研究生成的代码。但这总是留给铁杆开发人员的选项,而普通用户几乎永远不会进入代码内部来完成她的日常工作。

【讨论】:

以上是关于ETL 工具:GUI 与框架 [关闭]的主要内容,如果未能解决你的问题,请参考以下文章

etl学习系列1——etl工具安装

几种数据处理框架的场景比较:传统ETL工具MapreduceHiveSpark

R vs Pentaho Spoon 作为 ETL 工具 [关闭]

哪个是自动 GUI 性能测试的最佳工具? [关闭]

与客户一起制作 GUI 原型 [关闭]

HData——ETL 数据导入/导出工具