Pyspark rdd:“RDD”对象没有属性“平面图”

Posted

技术标签:

【中文标题】Pyspark rdd:“RDD”对象没有属性“平面图”【英文标题】:Pyspark rdd : 'RDD' object has no attribute 'flatmap' 【发布时间】:2018-10-28 10:55:49 【问题描述】:

我是 Pyspark 的新手,实际上我正在尝试从 Pyspark RDD 对象构建平面图。但是,即使 pyspark RDD 类明确存在此功能,根据文档,我也无法使用它并收到以下错误:

AttributeError: 'RDD' object has no attribute 'flatmap'

我在以下行中调用后一个函数:

my_rdd = my_rdd.flatmap(lambda r: (r[5].split('|')))

导入如下:

from pyspark.sql import *
from pyspark.sql.functions import *
from pyspark.sql import SparkSession
from pyspark import SparkContext as sc
from pyspark import SparkFiles
spark = SparkSession.builder.getOrCreate()

此外,my_rdd.count 等其他一些功能正在运行,这让我认为 SparkContext 已正确实现。

您对它可能失败的原因有任何想法吗?

【问题讨论】:

【参考方案1】:
my_rdd = my_rdd.flatMap(lambda r: (r[5].split('|')))

大写!!!

【讨论】:

这些事情发生了,以林还林 我还在体验AttributeError: 'DataFrame' object has no attribute 'flatMap' 不是它的工作原理。 @杰里米 这篇文章,在DataFrame上调用这个函数:***.com/a/37955947/3710514 这个问题是关于 rdd 的不是数据帧。请发布一个新问题。

以上是关于Pyspark rdd:“RDD”对象没有属性“平面图”的主要内容,如果未能解决你的问题,请参考以下文章

PySpark - RDD 中对象的时间重叠

PySpark:在“NoneType”对象上过滤掉 RDD 元素失败是不可迭代的

如何计算 pyspark RDD 中的列数?

pyspark的RDD代码纪录

Pyspark RDD 收集前 163 行

Pyspark:从列表的 RDD 创建一个火花数据框,其中列表的某些元素是对象