尝试在 Spark 中读取 Parquet 时出错

Posted

技术标签:

【中文标题】尝试在 Spark 中读取 Parquet 时出错【英文标题】:Error when attempting to read Parquet in Spark 【发布时间】:2019-07-20 09:50:48 【问题描述】:

我正在使用 Python Spark 2.4.3

我读取了 CSV 并从中创建了一个数据框并将其写入 Parquet。第 3 行是中断。

df = spark.read.csv("file.csv", header=True)
df.write.parquet("result_parquet")
parquetFile = spark.read.parquet("result_parquet")

我得到了这个:

Py4JJavaError: An error occurred while calling o1312.parquet.
: java.lang.IllegalArgumentException: Unsupported class file major version 55

我做错了什么?我直接从 Spark 文档https://spark.apache.org/docs/latest/sql-data-sources-parquet.html#loading-data-programmatically

【问题讨论】:

【参考方案1】:

问题是我使用的是 Java 11(Spark 不完全支持)。我卸载并安装了 Java 8,现在它可以工作了

【讨论】:

以上是关于尝试在 Spark 中读取 Parquet 时出错的主要内容,如果未能解决你的问题,请参考以下文章

Hive 不读取 Spark 生成的分区 parquet 文件

使用 Pyspark 在 s3 中写入镶木地板文件时出错

显示在 Spark+Parquet 程序中读取的字节数

Spark:仅当路径存在时才读取文件

尝试在 spark 中读取 athena 表时出错

Apache Spark 无法读取使用流式作业编写的 parquet 文件夹