Spark java.io.EOFException：过早的 EOF：没有可用的长度前缀

Posted 2023-03-23

技术标签:

【中文标题】Spark java.io.EOFException：过早的 EOF：没有可用的长度前缀【英文标题】：Spark java.io.EOFException: Premature EOF: no length prefix available 【发布时间】：2016-08-16 00:16:57 【问题描述】：

我正在尝试读取 parquet 文件并对其执行一些操作并将结果保存为 HDFS 上的 parquet。我正在使用 Spark 进行操作。这样做时，我遇到了以下异常。

java.io.EOFException: Premature EOF: no length prefix available
at org.apache.hadoop.hdfs.protocolPB.PBHelper.vintPrefixed(PBHelper.java:2203)
at org.apache.hadoop.hdfs.protocol.datatransfer.PipelineAck.readFields(PipelineAck.java:176)
at org.apache.hadoop.hdfs.DFSOutputStream$DataStreamer$ResponseProcessor.run(DFSOutputStream.java:867)

任何关于可能是什么原因和解决方案的帮助。

使用 CDH 5.4.1

【问题讨论】：

向我们展示你到目前为止所做的尝试...... 尝试使用合并来减少写入时的分区数。如果它不起作用，也许你可以发布你的代码来帮助调试。没有足够的背景信息或故障排除步骤。投票结束，但也发布了一个通用答案，这可能与给定信息一样好。 【参考方案1】：

Premature EOF 代表文件过早结束。

没有发布代码，所以我无法提供更具体的解决方案，但有两种可能会出现此错误：

如果您使用的库仍然是新的/有些未经测试，您可能会发现它在某些极端情况下存在问题然而，更有可能的是您在代码中犯了错误。这可能像语法错误一样简单，但也可能更微妙，例如以错误的方式调用某些东西。

【讨论】：

以上是关于Spark java.io.EOFException：过早的 EOF：没有可用的长度前缀的主要内容，如果未能解决你的问题，请参考以下文章

spark提交参数解析

科普Spark，Spark是啥，如何使用Spark

Spark系列

Spark-01 spark简介

Spark 内核 Spark 内核解析-下

Spark官方文档: Spark Configuration（Spark配置）