使用数据工厂根据 Datetimestamp 列从存储帐户中选择文件

Posted

技术标签:

【中文标题】使用数据工厂根据 Datetimestamp 列从存储帐户中选择文件【英文标题】:Pick files from Storage account based on Datetimestamp Column using Data Factory 【发布时间】:2021-12-17 01:25:02 【问题描述】:

我需要根据与使用 Azure 数据工厂的文件关联的时间戳,根据以下条件将文件从 Azure 存储帐户复制到其他存储帐户。

因此,每当数据工厂触发复制活动时,都应在 UTC 时间晚上 7 点到 UTC 时间上午 8 点之间根据文件的时间戳列复制文件。

假设我们有以下文件到存储中

文件名 时间戳

文件1 -----> 2021-11-01 6.30PM

文件2 -----> 2021-11-01 9.00PM

文件3 -----> 2021-11-02 6.00AM

所以在上述场景中,我的复制活动应该根据其时间戳提取 File2 和 File3。从晚上 8 点到早上 7 点出现。

我尝试在复制活动中使用 Filter by last modified Start time (UTC) 选项来实现相同的功能,但我的表达式未正确验证。

如有任何帮助,我们将不胜感激

【问题讨论】:

能否在您的问题中发布任何错误消息? 【参考方案1】:

如果您的输入日期格式:2021-11-04 11:53:00.0000000 那么您需要在 toTimeStamp 函数中使用 'yyyy-MM-dd HH:mm:ss.SSS',这样您就可以尝试一下像这样 - toTimestamp('2021-11-04 11:53:00.000', 'yyyy-MM-dd HH:mm:ss.SSS') 在您的代码中将其转换为所需的格式。

请参考https://docs.microsoft.com/en-us/azure/data-factory/connector-file-system?tabs=data-factory

【讨论】:

以上是关于使用数据工厂根据 Datetimestamp 列从存储帐户中选择文件的主要内容,如果未能解决你的问题,请参考以下文章

根据来自不同数据帧的行名将列从另一个数据帧复制到

根据两个不同的列从一行中提取信息

根据几个条件将列从一个数据帧映射到另一个数据帧,以考虑存在的多个映射中的一个映射

根据唯一记录 postgres 将一列从一个 sql 表传输到另一列

Pandas 基于连接将列从一个数据帧添加到另一个数据帧

根据另一列从 Pandas 系列中的列表中选择元素