AttributeError: 'RDD' 对象没有属性 'show'

Posted

技术标签:

【中文标题】AttributeError: \'RDD\' 对象没有属性 \'show\'【英文标题】:AttributeError: 'RDD' object has no attribute 'show'AttributeError: 'RDD' 对象没有属性 'show' 【发布时间】:2019-05-06 05:40:57 【问题描述】:
from pyspark import SparkContext, SparkConf, sql
from pyspark.sql import Row
sc = SparkContext.getOrCreate()
sqlContext = sql.SQLContext(sc)
df = sc.parallelize([ \
                 Row(nama='Roni', umur=27, tingi=168), \
                 Row(nama='Roni', umur=6, tingi=168),
                 Row(nama='Roni', umur=89, tingi=168),])

df.show()

错误: Traceback(最近一次调用最后一次):

df.show() 中的文件“ipython-input-24-bfb18ebba99e”,第 8 行

AttributeError: 'RDD' 对象没有属性 'show'

【问题讨论】:

Pyspark 'PipelinedRDD' object has no attribute 'show' 的可能重复项,也与Spark RDD to DataFrame python 有关 【参考方案1】:

错误很明显,因为df 是一个 rdd。您应该在以下代码中使用toDF 将其更改为数据框:

df = df.toDF()
df.show()

【讨论】:

以上是关于AttributeError: 'RDD' 对象没有属性 'show'的主要内容,如果未能解决你的问题,请参考以下文章

将 rdd 转换为数据框:AttributeError: 'RDD' object has no attribute 'toDF' using PySpark

AttributeError:“DataFrame”对象没有属性“map”

Pyspark rdd:“RDD”对象没有属性“平面图”

AttributeError:“NumpyArrayIterator”对象没有属性“类”

AttributeError:“模块”对象没有属性“WebSocketApp”

AttributeError:“模块”对象没有属性“作者”