数据流 UDF 的更新延迟

Posted

技术标签:

【中文标题】数据流 UDF 的更新延迟【英文标题】:Update delay for dataflow UDF 【发布时间】:2020-01-29 15:29:42 【问题描述】:

我有一个从 pub/sub 到 bigquery 的数据流,它使用 javascript UDF 来操作数据。如果我修改云存储中的文件,正在运行的数据流是否会自动更新以开始使用这个新的 UDF,是否存在延迟或者我必须手动触发它?我更改了 UDF,但数据流的行为就像是使用旧的一样运行。

另外,调试这些在数据流上运行的 UDF 的最佳方法是什么?

谢谢!

【问题讨论】:

【参考方案1】:

您是指数据流模板,对吗?

很遗憾,当您更改文件时,UDF 不会刷新。要使用新文件进行更新,您需要执行管道更新,或停止/重新启动管道。

至于调试 UDF,我不确定最好的方法是什么;但是您可以访问the DataflowTemplates repository in Github 中的管道代码,并通过在本地运行或编写它的简化版本来调试管道。

【讨论】:

以上是关于数据流 UDF 的更新延迟的主要内容,如果未能解决你的问题,请参考以下文章

UDF 中的延迟名称解析

C# 中的 UDF 更新表(将所有数据与查询结果相除)

数据更新接口与延迟更新

如何将UDF应用于数据框?

为啥不能在 UDF 中访问数据框? [Apache Spark Scala] [重复]

GeoLite2 免费数据库有请求限制吗? (蜂巢 UDF)