pyspark 数据框使用 show() 出错
Posted
技术标签:
【中文标题】pyspark 数据框使用 show() 出错【英文标题】:pyspark dataframe is giving an error with show() 【发布时间】:2020-01-25 07:51:58 【问题描述】:我正在使用带有 %livy.pyspark 解释器的 Zeppelin 笔记本。我正在 Hadoop Hive 表上运行 SQL 查询,并希望查看表中的几行。我正在使用以下代码:
'''
%livy.pyspark
from pyspark.sql import HiveContext
sqlContext = HiveContext(sc)
df = sqlContext.sql("Select * from Orders")
df.printSchema()
df.show()
'''
它使用 df.printSchema() 显示表模式。但是,使用 df.show() 给出以下错误
'''An error occurred while calling showString.
: java.lang.RuntimeException: serious problem'''
您能帮我解决这个问题吗?
【问题讨论】:
这里的Orders表是一个事务表。 show() 正在处理其他表。 【参考方案1】:这是 HIVE(https://issues.apache.org/jira/browse/HIVE-13120) 的问题。解决方法是设置set hive.fetch.task.conversion=none
【讨论】:
以上是关于pyspark 数据框使用 show() 出错的主要内容,如果未能解决你的问题,请参考以下文章
在 Pyspark 中从 Rest Api 创建数据框时出错
尝试通过数据框在 Pyspark 中执行用户定义的函数时出错
Pyspark 错误:“Py4JJavaError:调用 o655.count 时出错。”在数据帧上调用 count() 方法时