如何使 Luigi 任务生成内存列表作为目标

Posted

技术标签:

【中文标题】如何使 Luigi 任务生成内存列表作为目标【英文标题】:How to make a Luigi task generate an in-memory list as target 【发布时间】:2016-11-20 22:44:43 【问题描述】:

我正在尝试使用luigi 编写一个 etl 管道。据我从文档中了解到,luigi 中的任务可以生成一个目标,该目标可以是某种类型的文件存储或数据库。为了减少处理时间,我希望有一个内存列表作为输出。这可能吗?我必须创建自定义目标吗?

【问题讨论】:

与问题***.com/questions/42515463/…相关,有一些看起来很有用的答案 【参考方案1】:

我发现我可以使用 MockFile 作为目标。一个很好的例子:

http://gouthamanbalaraman.com/blog/building-luigi-task-pipeline.html

【讨论】:

作者指出:“我在这里使用 MockFile 只是为了在控制台上查看结果。这通常是一个很好的测试工具,尽管我不确定它是否是生产就绪的方法。”那么您是否尝试过用于(半)生产管道的 MockFile?它是内存流水线的正确方法吗?

以上是关于如何使 Luigi 任务生成内存列表作为目标的主要内容,如果未能解决你的问题,请参考以下文章

如何使参数可用于所有 Luigi 任务?

在luigi中使用multiprocessing.Queue

让 Airflow 表现得像 Luigi:如果任务的输出只需要获得一次,如何防止任务在 DAG 的未来运行中重新运行?

如何忽略在另一个任务的 run() 中触发的 Luigi 任务失败

如何避免在 Luigi 中与多个工作人员同时运行特定任务

如何使用上游任务的输出来驱动 requires() 的结果?