Pentaho ETL 和数据分析器是不错的选择吗?

Posted

技术标签:

【中文标题】Pentaho ETL 和数据分析器是不错的选择吗?【英文标题】:Is Pentaho ETL and Data Analyzer good choice? 【发布时间】:2009-11-27 15:12:24 【问题描述】:

我一直在寻找 ETL 工具,并在谷歌上找到了很多关于 Pentaho Kettle 的信息。

我还需要一个在 Star Schema 上运行的数据分析器,以便业务用户可以尝试并生成任何类型的报告或矩阵。 PentaHo Analyzer 再次看起来不错。

应用程序的其他部分将使用 java 开发,并且应用程序应该与数据库无关。

Pentaho 是否足够好,或者我应该检查其他工具。

【问题讨论】:

【参考方案1】:

Pentaho 似乎相当稳固,提供整套 BI 工具,据报道正在改进集成。但是...希望为 BI 解决方案走开源路线的公司也很可能最终使用开源数据库技术...那种意义上的“与数据库无关”很容易成为一把双刃剑。例如,您可以在 Microsoft 的 Analysis Services 中开发一个多维数据集,因为您知道无论多维数据集发送到数据库的 MDX/XMLA 将始终如一地被植入,几乎不会产生令人讨厌的意外。

将其与 Pentaho 堆栈进行比较,后者通常会结束与 Postgresql 或 mysql 的交互。我无法保证 Postgresql 在 OLAP 领域的表现如何,但我确实从经验中知道,Mysql - 尽管具有无可置疑的优势 - 在 OLAP 解决方案中通常出现的 SQL 类型存在“问题” (如果不使用GROUP BYCOUNT DISTINCT,您将无法在立方体中走得太远)。因此,您在许可证成本中节省的部分几乎肯定会用于解决 Pentaho 并不总是知道它正在与哪个数据库通信这一事实所引起的问题——可以这么说,抢劫彼得(至少部分)支付保罗。

【讨论】:

实际上似乎越来越多的 Pentaho 用户开始使用各种开源列 db(例如 Lucid)而不是 mysql,然后您可以从 olap 类型的查询中获得令人眼花缭乱的性能。此外,分析确实在缓存方面做得很好——所以即使底层数据库中的查询速度很慢,它也只是一次性的。最后;它支持聚合表 - 另一种避免这些慢查询的方法 - 聚合设计器会为您整理所有这些 - 这是一个非常方便的工具。【参考方案2】:

很遗憾,需要更多信息。例如:

您是否需要与知名应用程序(Oracle Financials、Remedy 等)交换数据?如果是这样,您可以使用已内置支持该接口的 ETL 解决方案节省大量时间和金钱。 您需要咨询哪些数据库产品(和版本)和文件类型? 是否需要支持查询网络服务? 您需要近乎实时的数据流吗? 您是否需要规则级别的审计和计数来计算每一行 您需要增量处理吗? 您需要在哪种机器上运行它? linux?视窗?大型机? 此工具必须遵守什么样的版本控制、测试和构建流程? 您需要什么样的性能和可扩展性? 您是否介意数据库最终会驱动转换? 您需要它在用户空间中运行吗? 您是否需要在与其他网络断开连接的各种网络上运行它的一部分? (在提取过程中并不罕见) 您需要支持多少个接口以及何种复杂度?

您可能会花费大量时间来部署和学习 ETL 工具,结果却发现它确实不能很好地满足您的需求。你最好先花几个小时弄清楚。

【讨论】:

感谢您选择工具的参数......我肯定会为 Pentaho 验证这一点。如果你所有问题的答案都是正确的,那么你 Pentaho 会好吗? 嗯,这是一个快速的高级列表。我也会考虑许可 - 因为免费版本缺少关键功能(如远程管理和警报)。而且我还会考虑您对模型驱动方法的渴望程度。就个人而言,我发现模型驱动的 ETL 是 20% 左右的工作的 PITA。我最喜欢的是 python/ruby/java/perl 的库和工具的工具箱,然后与之交互。对于许多小型项目而言,构建自己的库是学习大型产品和与其他供应商打交道的最佳解决方案。 好奇;付费版有哪些提醒方式? 抱歉 - 我无法再找到关于 Pentaho 的 ETL 产品的笔记来确认。在上面的评论中,我的意思可能是在进程失败时通过 SMS 消息发出警报,而不是像 OLAP 工具那样发出警报。这条评论来自一年多前,可能已经过时,尽管双许可产品为商业版本保留其最佳功能的趋势仍然存在。【参考方案3】:

我之前使用过Talend 并取得了一些成功。您可以通过在图形设计器中将操作链接在一起来创建翻译。肯定有一些WTF,很难处理多行记录,但其他方面效果很好。

Talend 还生成 Java,您可以远程访问 ETL 流程。该工具也是免费的,但它们提供企业培训和支持。

【讨论】:

【参考方案4】:

有很多选择。如果您想要免费工具,请查看 BIRT、Talend 和 Pentaho。如果您想要更稳健,请查看 Tableau 和 BIRT Analytics。

【讨论】:

以上是关于Pentaho ETL 和数据分析器是不错的选择吗?的主要内容,如果未能解决你的问题,请参考以下文章

多个 Pentaho 转换“变量?”

pentaho saiku 安装全过程

R vs Pentaho Spoon 作为 ETL 工具 [关闭]

Pentaho ETL:数据库连接与表输入

Excel导出工具包pentaho report

pentaho 除法 2 列