增量文件版本的 Pyspark 结构化流错误

Posted

技术标签:

【中文标题】增量文件版本的 Pyspark 结构化流错误【英文标题】:Pyspark Structured Streaming error with delta file verison 【发布时间】:2021-10-21 14:45:30 【问题描述】:

我的工作是将数据从带有镶木地板文件的增量表流式传输到 json 格式的输出表。两个表都位于 Azure Data Lake 容器中。

我收到以下错误,我无法理解:

java.lang.IllegalArgumentException:要求失败:没有获得第一个增量文件版本:921 来计算快照

这是什么意思?我不想删除我的检查点文件或事务日志等。

提前致谢

【问题讨论】:

【参考方案1】:

注意:恢复 Azure Data Lake Storage Gen2 平面和分层 不支持命名空间。

有关详细信息,请参阅 MSFT 文档“时间点恢复”。

时间点还原允许您从仅影响块 blob 的操作中恢复数据。任何作用于容器的活动都将不可逆转地丢失。例如,如果您使用删除容器操作从存储帐户中删除容器,则无法使用时间点还原操作还原该容器。如果您希望稍后恢复单个 blob,请删除单个 blob 而不是整个容器。

【讨论】:

以上是关于增量文件版本的 Pyspark 结构化流错误的主要内容,如果未能解决你的问题,请参考以下文章

结构化流增量文件不存在

kafka 到 pyspark 结构化流,将 json 解析为数据帧

pyspark结构化流kafka - py4j.protocol.Py4JJavaError:调用o41.save时发生错误

PySpark 结构化流将 udf 应用于窗口

Pyspark 结构化流处理

如何在 pyspark 的结构化流作业中运行地图转换