增量文件版本的 Pyspark 结构化流错误
Posted
技术标签:
【中文标题】增量文件版本的 Pyspark 结构化流错误【英文标题】:Pyspark Structured Streaming error with delta file verison 【发布时间】:2021-10-21 14:45:30 【问题描述】:我的工作是将数据从带有镶木地板文件的增量表流式传输到 json 格式的输出表。两个表都位于 Azure Data Lake 容器中。
我收到以下错误,我无法理解:
java.lang.IllegalArgumentException:要求失败:没有获得第一个增量文件版本:921 来计算快照
这是什么意思?我不想删除我的检查点文件或事务日志等。
提前致谢
【问题讨论】:
【参考方案1】:注意:恢复 Azure Data Lake Storage Gen2 平面和分层 不支持命名空间。
有关详细信息,请参阅 MSFT 文档“时间点恢复”。
时间点还原允许您从仅影响块 blob 的操作中恢复数据。任何作用于容器的活动都将不可逆转地丢失。例如,如果您使用删除容器操作从存储帐户中删除容器,则无法使用时间点还原操作还原该容器。如果您希望稍后恢复单个 blob,请删除单个 blob 而不是整个容器。
【讨论】:
以上是关于增量文件版本的 Pyspark 结构化流错误的主要内容,如果未能解决你的问题,请参考以下文章
kafka 到 pyspark 结构化流,将 json 解析为数据帧
pyspark结构化流kafka - py4j.protocol.Py4JJavaError:调用o41.save时发生错误