DataLake 文件 - 上次修改日期时间
Posted
技术标签:
【中文标题】DataLake 文件 - 上次修改日期时间【英文标题】:DataLake Files - Last Modified date time 【发布时间】:2021-10-08 04:03:30 【问题描述】:想要使用 Synapse 笔记本 (pyspark) 获取数据湖中文件的最后更新日期时间。 我们有什么开箱即用的选项吗?
【问题讨论】:
我正在使用 mssparkutils.fs.ls 来获取给定位置的文件列表。获取此列表按文件修改日期排序的任何线索都会有所帮助。 您是否限制使用 Synapse 笔记本?如果适合您,也可以使用 Azure 数据工厂来完成。 【参考方案1】:您不能将输出分配给数据框并对其进行排序吗?
df = mssparkutils.fs.ls(path)
sorted(df(sortcolumn))
https://spark.apache.org/docs/latest/api/python/reference/api/pyspark.sql.DataFrame.sort.html
也许是这样的? How do you get a directory listing sorted by creation date in python?
【讨论】:
以上是关于DataLake 文件 - 上次修改日期时间的主要内容,如果未能解决你的问题,请参考以下文章