Pentaho:恢复转型

Posted

技术标签:

【中文标题】Pentaho:恢复转型【英文标题】:Pentaho: Resume transformation 【发布时间】:2019-03-13 09:42:52 【问题描述】:

最近我遇到了一个问题。导致它的转换具有“插入/更新”步骤,该步骤对具有超过 2 亿条记录的表进行操作。在与数据库服务器的连接丢失并且我手动重新运行转换后,可以在日志窗口中看到该步骤重新检查了它在连接丢失之前已经下载的记录。我知道这是该步骤的逻辑行为。但是我没有机会下载所有的记录。有时该过程在 1500 万条记录后停止,有时在 5000 万条记录后停止。 如何处理这个问题?我考虑了主键值的自动递增并在连接丢失后保存最后一个主键值。或者按主键对目标表的记录进行排序,找到间隙并使用间隙中的值恢复加载。但是 Pentaho 中是否有一些机制可以完成这项工作?

【问题讨论】:

【参考方案1】:

Pentaho 具有检查点,您可以为作业启用这些检查点,这些检查点允许您在因任何原因停止的检查点处重新启动作业。 https://help.pentaho.com/Documentation/8.2/Products/Data_Integration/Data_Integration_Perspective/Job_Checkpoints

但是,这在转换级别不可用。您对使用序列或自动递增字段的想法可能是您最好的选择。

【讨论】:

谢谢。我已经访问了链接。但我无法在此处重现建议的操作:“右键单击作业中的步骤或转换,然后从出现的菜单中选择可重新启动的检查点。”我看不到菜单项。

以上是关于Pentaho:恢复转型的主要内容,如果未能解决你的问题,请参考以下文章

获得锁定pentaho的过期时间

Pentaho Kettle:邮寄转换的结果

Pentaho:玩转大数据,躲开那些“坑”

Pentaho - PAC(Pentaho 管理控制台)最新版本

在 pentaho 外部查看 pentaho 仪表板

必备工具:使用Pentaho进行数据迁移