ETL 处理中日志记录机制的最佳实践

Posted

技术标签:

【中文标题】ETL 处理中日志记录机制的最佳实践【英文标题】:best practice for logging mechanisam in ETL processing 【发布时间】:2020-08-05 11:23:40 【问题描述】:

ETL 处理中记录机制的最佳实践是什么?

实际上我们正在开发ETL应用程序。在这个我们想使用日志分析来记录数据 任何人都可以提供符合行业标准的日志记录机制的最佳实践。

我用谷歌搜索了以下链接:https://www.timmitchell.net/post/2016/03/14/etl-logging/

感谢任何帮助。

提前致谢

【问题讨论】:

【参考方案1】:

我最近在组织中实施了合一。由于技术选择,它是定制的。以下是日志中包含的内容。

它充当任何 ETL 作业的包装器,也就是开发了一个模板并且该模板具有内置日志记录 模板具有主子作业和基于主子的日志功能 日志记录如下: 作业状态 - 成功、失败、警告 源详细信息(例如文件名或源表等名称) 数据分类标注 传入数据源的企业所有者 原始文件的行数与加载的行数 如果作业失败,向分发列表发送警报 如果作业失败,则通过服务台提出工单

这取决于您的要求,您可能希望捕获更多或更少。 祝你好运

【讨论】:

嗨,谢谢回复 嗨,谢谢回复实际上我们正在使用数据块和 pyspark 来实现 ETL,并使用 Azure 日志分析来实现日志记录机制,您能否建议我如何使用这些技术实现 嗨@NarsingRao 我还没有使用 Azure 日志分析。但我假设它在引擎盖下有一个存储引擎,它可能是一个文件存储系统。我上面提出的所有建议都是定制开发的,不幸的是,其中许多建议您可能必须手动记录。 Databirks 作为应用程序将轻松记录到日志分析。您可能必须将其他消息回显(自定义代码)到 databricks 控制台以通过日志分析进行捕获。 嗨 Amandeep Modgil 我们可以在 git hub 或在线获取任何项目以供参考吗?提前致谢

以上是关于ETL 处理中日志记录机制的最佳实践的主要内容,如果未能解决你的问题,请参考以下文章

linux中日志介绍

使用logging封装日志

0002 - Java 日志从入门到实战

关于 kafka 中的日志记录系统的信息

logging模块介绍

登录python的最佳实践