DataLake 文件 - 上次修改日期时间

Posted

技术标签:

【中文标题】DataLake 文件 - 上次修改日期时间【英文标题】:DataLake Files - Last Modified date time 【发布时间】:2021-10-08 04:03:30 【问题描述】:

想要使用 Synapse 笔记本 (pyspark) 获取数据湖中文件的最后更新日期时间。 我们有什么开箱即用的选项吗?

【问题讨论】:

我正在使用 mssparkutils.fs.ls 来获取给定位置的文件列表。获取此列表按文件修改日期排序的任何线索都会有所帮助。 您是否限制使用 Synapse 笔记本?如果适合您,也可以使用 Azure 数据工厂来完成。 【参考方案1】:

您不能将输出分配给数据框并对其进行排序吗?

df = mssparkutils.fs.ls(path)
sorted(df(sortcolumn))

https://spark.apache.org/docs/latest/api/python/reference/api/pyspark.sql.DataFrame.sort.html

也许是这样的? How do you get a directory listing sorted by creation date in python?

【讨论】:

以上是关于DataLake 文件 - 上次修改日期时间的主要内容,如果未能解决你的问题,请参考以下文章

是否可以从资产文件中获取上次修改日期?

如何从 pysftp 获取上次修改时间

文件上次修改

根据“上次修改日期”循环浏览文件夹中的所有文件

国家和年份 - 上次修改日期

SharePoint 上次修改日期和匿名访问