移动 GroupBys

Posted

技术标签:

【中文标题】移动 GroupBys【英文标题】:Moving GroupBys 【发布时间】:2015-07-12 23:10:48 【问题描述】:

我的数据集看起来像

1
2
3
4
5
...

我有一个中间步骤应该执行以下操作

1
1,2
1,2,3
1,2,3,4
1,2,3,4,5
....

最后计算它的平均值

1
1.5
2
2.5
3
...

问题 a) 有没有办法在 python / py-spark 中实现这一点? b)是否有开箱即用的方法/api。 c)我用谷歌搜索了这种解决方案,我得到的最接近的是移动平均/滚动平均/移动组。这个操作有术语吗?

【问题讨论】:

你是什么意思'计算它的意思'?你在计算每条线的平均值吗? (如果是这样,您的数学运算有误) 抱歉最大的错字 【参考方案1】:

在 Pandas 中,这称为expanding_mean

import pandas as pd
df = pd.Series(range(1,6))
s = pd.Series(range(1,6))
pd.expanding_mean(s)
Out[128]: 
0    1.0
1    1.5
2    2.0
3    2.5
4    3.0
dtype: float64

我不确定你会如何在 Spark 中执行此操作,但也就是说,我也不确定这是否是一个“可并行化”的任务:因为每个步骤都依赖于上一步,所以我不确定如何将其分解为多个步骤。

【讨论】:

有没有办法在火花中做到这一点。我们可以并行化这个操作吗?。

以上是关于移动 GroupBys的主要内容,如果未能解决你的问题,请参考以下文章

移动端------移动事件对象

中国移动的DNS是多少

KeyMob移动广告平台深造移动营销领域

移动Web开发调研

移动端测试概览

Linux移动文件