PySpark DataFrame的逐行聚合

Question

我有一个Pyspark DataFrame，我想使用一个逐行操作的函数进行聚合。

我有4列，对于A列中的每个唯一值，我必须在B，C，D列中进行逐行聚合

我正在使用这种方法：

在A中获取唯一值 A_uniques = df.select('A').distinct()
def func(x): y = df.filter(df.A==x) y = np.array(y.toPandas()) for i in y.shape[0]: y[i,1] = y[i-1,0] y[i,0] = (y[i,0]+y[i,2])/y[i,3] agg = sum(y[:,1]) return agg
A_uniques.rdd.map(lambda x: (x['A'], func(x['A'])))

我收到此错误：

PicklingError：无法序列化对象：Py4JError：调用o64.getnewargs时发生错误。跟踪：py4j.Py4JException：方法getnewargs（[]）在py4j.reflection.ReflectionEngine.getMethod（ReflectionEngine.java:318）py4j.reflection.ReflectionEngine.getMethod（ReflectionEngine.java:326）的py4j.Gateway上不存在。在py4j.commands.CallCommand.exe执行（CallCommand.java:79）py4j.GatewayConnection.run（GatewayConnection.java:214）的py4j.commands.AbstractCommand.invokeMethod（AbstractCommand.java:132）上调用（Gateway.java:272））在java.lang.Thread.run（Thread.java:748）

有没有在RDD中保存numpy数组的解决方案？或者我可以用其他方式完成整个操作吗？