pyspark.sql.utils.AnalysisException:u'无法推断Parquet的模式。必须手动指定。

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了pyspark.sql.utils.AnalysisException:u'无法推断Parquet的模式。必须手动指定。相关的知识,希望对你有一定的参考价值。

这与上面帖子中给出的答案有不同的答案

我收到的错误是读取的

pyspark.sql.utils.AnalysisException: u'Unable to infer schema for Parquet. It must be specified manually.;'

当我尝试使用Spark 2.1.0阅读像这样的镶木地板文件

data = spark.read.parquet('/myhdfs/location/')

我通过Hue WebPortal查看impala表,检查了文件/表是否为空。此外,我存储在类似目录中的其他文件读取绝对正常。对于记录,文件名包含连字符但没有下划线或句号/句点。

因此,以下帖子中没有一个答案适用Unable to infer schema when loading Parquet file

有任何想法吗?

答案

事实证明我得到了这个错误,因为目录结构还有另一个级别。以下是我所需要的;

data = spark.read.parquet('/myhdfs/location/anotherlevel/')

以上是关于pyspark.sql.utils.AnalysisException:u'无法推断Parquet的模式。必须手动指定。的主要内容,如果未能解决你的问题,请参考以下文章