pyspark databricks 代码对传入文件进行零字节检查
Posted
技术标签:
【中文标题】pyspark databricks 代码对传入文件进行零字节检查【英文标题】:pyspark databricks code to do zero byte check on incoming files 【发布时间】:2021-09-23 11:07:13 【问题描述】:如何对数据块中的传入文件进行审计检查。 希望 python 代码进行零字节检查(应该检查文件是否有数据),如果文件有数据,那么它应该继续该过程,否则它应该停止该过程并发送电子邮件。
【问题讨论】:
【参考方案1】:Databricks 有dbutils.fs,它返回目录中的文件列表,包括文件大小。您可以使用该信息来检查每个用例。
【讨论】:
以上是关于pyspark databricks 代码对传入文件进行零字节检查的主要内容,如果未能解决你的问题,请参考以下文章
如何在 Databricks 的 PySpark 中使用在 Scala 中创建的 DataFrame
如何在 Azure Databricks PySpark 中执行存储过程?
Azure Databricks 和 pyspark - 子字符串错误
调用 NLTK 并在 databricks pyspark 上找不到“punkt”错误