pyspark 数据框使用 show() 出错

Posted

技术标签:

【中文标题】pyspark 数据框使用 show() 出错【英文标题】:pyspark dataframe is giving an error with show() 【发布时间】:2020-01-25 07:51:58 【问题描述】:

我正在使用带有 %livy.pyspark 解释器的 Zeppelin 笔记本。我正在 Hadoop Hive 表上运行 SQL 查询,并希望查看表中的几行。我正在使用以下代码:

'''
%livy.pyspark
from pyspark.sql import HiveContext
sqlContext = HiveContext(sc)
df = sqlContext.sql("Select * from Orders")
df.printSchema()
df.show()
'''

它使用 df.printSchema() 显示表模式。但是,使用 df.show() 给出以下错误

'''An error occurred while calling showString.
: java.lang.RuntimeException: serious problem'''

您能帮我解决这个问题吗?

【问题讨论】:

这里的Orders表是一个事务表。 show() 正在处理其他表。 【参考方案1】:

这是 HIVE(https://issues.apache.org/jira/browse/HIVE-13120) 的问题。解决方法是设置set hive.fetch.task.conversion=none

【讨论】:

以上是关于pyspark 数据框使用 show() 出错的主要内容,如果未能解决你的问题,请参考以下文章

在 Pyspark 中从 Rest Api 创建数据框时出错

尝试通过数据框在 Pyspark 中执行用户定义的函数时出错

Pyspark 错误:“Py4JJavaError:调用 o655.count 时出错。”在数据帧上调用 count() 方法时

删除 Spark 数据框中的空格时出错 - PySpark

将pyspark的数据框写入镶木地板时出错

AnalysisException,pyspark 无法解析数据框查询中的变量