无法将数据写入 RDD

Posted

技术标签:

【中文标题】无法将数据写入 RDD【英文标题】:unable to write data to RDD 【发布时间】:2019-04-30 14:18:40 【问题描述】:

我在 windows 上运行 pyspark 并实现了以前在 python 中实现的算法

我已将列表转换为 RDD,但出现错误

voxel =[[ ['0' for col in range(100)] for col in range(100)] for row in range(6)] 
delay = sc.parallelize(voxel,4)
locationforant=[[75,15],[100,50],[75,80],[25,80],[0,50],[25,15]]
for a in range(6):
    for x in range(100):
        for y in range(100):
            distance=((math.sqrt((x-locationforant[a][0])**2+(y-locationforant[a][1])**2))/100)*200
            delay[a][x][y] = round(distance)

TypeError                                 Traceback (most recent call last)
<ipython-input-9-b81a67e36764> in <module>()
     21             distance=((math.sqrt((x-locationforant[a][0])**2+(y-locationforant[a][1])**2))/100)*200
     22 #             breakpoint()
---> 23             delay[a][x][y] = round(distance)

TypeError: 'RDD' object does not support indexing

【问题讨论】:

Spark 是分布式的,因此即使是三重嵌套的 for 循环也不适用于 Spark,因为它将在运行 Spark 执行器的每台机器上执行。此外,RDD 根本无法像 Python 列表那样访问。首先将您的代码转换为 Pandas 数据帧,这将更接近于获得类似 Spark 的算法 谢谢,我使用了 map 函数,它以某种方式解决了问题,但是 pyspark 中嵌套循环的替代解决方案是什么?抱歉,我是 spark 新手。 【参考方案1】:

如错误所示,您不能在 RDD 上使用索引运算符 ([])。您需要使用 map 之类的东西将函数应用于每一行。

【讨论】:

我很高兴它有帮助。

以上是关于无法将数据写入 RDD的主要内容,如果未能解决你的问题,请参考以下文章

Pyspark:由于数据类型 str 而不是 StringType,无法将 RDD 转换为 DataFrame

无法使用 customSchema 将 RDD 转换为 DF

将 Parquet 文件从 Spark RDD 写入动态文件夹

将大 RDD 写入 Hive - 将展开内存传输到存储内存失败

数据框架到RDD这段代码无法工作。

“无法将图像数据写入路径” - Laravel 图像干预