是否可以在 Dataflow 中暂存模型文件?

Posted

技术标签:

【中文标题】是否可以在 Dataflow 中暂存模型文件?【英文标题】:Is it possible to stage the model files in Dataflow? 【发布时间】:2021-10-18 18:25:00 【问题描述】:

我在部署 Dataflow 管道时遇到了困难。感谢 GCP 文档。以下是我想要实现的目标。 我有 4 个深度学习模型(每个 1 GB 的二进制文件)。我想从所有 4 个模型中获得预测。所以我搅拌桶里的所有 4 个模型。在我的管道中,我这样做了。

download_blob(......, destination_file_name = 'model.bin')            
fasttext.load_model('model.bin')  

        

它工作正常,但我有以下顾虑。

每次创建作业时,它都会下载这些文件,这将消耗大量时间。如果我调用 100 个作业,那么模型将被下载 100 次。有什么办法可以避免吗? 有什么方法可以将这些文件暂存到某个位置,这样即使我触发作业 100 次,模型也只会下载一次?

【问题讨论】:

【参考方案1】:

如GCP Dataflow Computation Graph and Job Execution 所述,您可以将模型数据放在custom container 中。当然,容器本身仍然必须在工人身上上演。

您还可以考虑单个管道(如果事先不知道输入,则可能是流式传输)是否比多次连续运行更能满足您的需求。

【讨论】:

谢谢!将看看它并分享我的发现。我也对在暂存位置加载加载模型文件感到好奇。这有什么帮助吗? ***.com/questions/30516965/… 暂存位置仍然是 GCS。

以上是关于是否可以在 Dataflow 中暂存模型文件?的主要内容,如果未能解决你的问题,请参考以下文章

仅在 git 中暂存分阶段的更改 - 有可能吗?

发票中暂存和生产发送日期时间之间的差异

01.Git安装与配置

SSIS Design5:使用暂存

BIML:在Dataflow中为XMLSource自动创建OleDbDestinations

Git中的文件夹列为没有扩展名的文件