使用 pyspark 同时编写 parquet 文件

Posted

技术标签:

【中文标题】使用 pyspark 同时编写 parquet 文件【英文标题】:Write parquet files concurrently with pyspark 【发布时间】:2021-07-26 05:37:53 【问题描述】:

在 Azure Databricks 中,我想使用 python / pyspark 从多个笔记本同时写入同一组镶木地板文件。我对目标文件进行了分区,因此分区是不相交的/独立写入的,根据databricks docs 支持。

但是,我的集群日志中不断出现错误,并且其中一个并发写入操作失败:

Py4JJavaError: An error occurred while calling o1033.save.
: org.apache.spark.SparkException: Job aborted.
...
Caused by: org.apache.hadoop.fs.PathIOException: `<filePath>/_SUCCESS': Input/output error: Parallel access to the create path detected. Failing request to honor single writer semantics

这是写入 parquet 文件的基本路径。

为什么会这样? _SUCCESS 文件有什么用?我可以以某种方式禁用它们以避免此问题吗?

【问题讨论】:

【参考方案1】:

_SUCCESS 是一个空文件,在进程的最后写入以确认一切正常。

您提供的链接仅关于 delta,这是一种特殊格式。显然,您正在尝试编写 parquet 格式文件,而不是 delta 格式。这就是你们发生冲突的原因。

【讨论】:

以上是关于使用 pyspark 同时编写 parquet 文件的主要内容,如果未能解决你的问题,请参考以下文章

使用 Python 编写 Parquet 文件的方法?

在 HIVE 中使用 CDH 5.4 和 Spark 1.3.0 和 Parquet 表的 PySpark 中的 Parquet 错误

在 parquet 文件顶部从 pyspark 代码创建一个表

使用 Pyspark 在 s3 中写入镶木地板文件时出错

使用 pyspark 对 parquet 文件进行分区和重新分区

Pyspark udf 内存利用率高