pyspark databricks 代码对传入文件进行零字节检查

Posted

技术标签:

【中文标题】pyspark databricks 代码对传入文件进行零字节检查【英文标题】:pyspark databricks code to do zero byte check on incoming files 【发布时间】:2021-09-23 11:07:13 【问题描述】:

如何对数据块中的传入文件进行审计检查。 希望 python 代码进行零字节检查(应该检查文件是否有数据),如果文件有数据,那么它应该继续该过程,否则它应该停止该过程并发送电子邮件。

【问题讨论】:

【参考方案1】:

Databricks 有dbutils.fs,它返回目录中的文件列表,包括文件大小。您可以使用该信息来检查每个用例。

【讨论】:

以上是关于pyspark databricks 代码对传入文件进行零字节检查的主要内容,如果未能解决你的问题,请参考以下文章

如何在 Databricks 的 PySpark 中使用在 Scala 中创建的 DataFrame

如何在 Azure Databricks PySpark 中执行存储过程?

Azure Databricks 和 pyspark - 子字符串错误

调用 NLTK 并在 databricks pyspark 上找不到“punkt”错误

PySpark:如何将 GitHub 库导入 Databricks?

无法在 Databricks 中使用 pyspark 读取 json 文件