Python 使用给定窗口运行累积总和

Posted

技术标签:

【中文标题】Python 使用给定窗口运行累积总和【英文标题】:Python Running cumulative sum with a given window 【发布时间】:2012-09-24 11:04:18 【问题描述】:

我想要做的是生成一个 numpy 数组,它是给定某个窗口的另一个 numpy 数组的累积和。

例如,给定一个数组[1,2,3,4,5,6,7,8,9,10,11,12],假设我想要一个窗口为 3 的累积和。我想要输出的是[1,3,6,9,12,15,18,21,24,27,30,33]。我有一个相对较大的 numpy 数组,想用 400 的窗口做一个累积和。

【问题讨论】:

Moving average or running mean的可能重复 【参考方案1】:

这可能是一个更简单的答案,基于减去移位的 cumsums。

>>> a = np.array([1,2,3,4,5,6,7,8,9,10,11,12])
>>> b = a.cumsum()
>>> b[3:] = b[3:] - b[:-3]
>>> b
array([ 1,  3,  6,  9, 12, 15, 18, 21, 24, 27, 30, 33])

【讨论】:

对于可能阅读这些答案的其他人:这是在 numpy 中执行此操作的规范方法,无论其价值如何。如果速度很重要,它比任何其他解决方案都。从根本上说,您需要为每个窗口显式重新计算总和的计算要少得多。 我在 HOURS 中寻找这样的解决方案...... Stack Overflow 上的其他答案的评价要高得多,但这要快得多。事实上,规范的 numpy 方式(它甚至环绕原始数组!)。向你致敬,先生。 第三行:如果我写b[3:] = b[3:] - b[:-3]呢?有什么理由使用a.cumsum()[:-3] 而不是b[:-3] @FrozenFlame,你是对的,据我所知,b[3:] = b[3:] - b[:-3] 工作正常。但是请注意,b[3:] -= b[:-3] 不起作用,因为它会在元素被读取之前对其进行修改。【参考方案2】:

seberg's 的答案比我的更好,更通用,但请注意,您需要对样本进行零填充以获得所需的结果。

import numpy as np
from numpy.lib.stride_tricks import as_strided as ast
samples = 100
window = 3
padding = np.zeros(window - 1)
# zero-pad your samples
a = np.concatenate([padding,np.arange(1,samples + 1)])
newshape = (len(a) - window,window)
newstrides = a.strides * 2
# this gets you a sliding window of size 3, with a step of 1
strided = ast(a,shape = newshape,strides = newstrides)
# get your moving sum
strided.sum(1)

【讨论】:

【参考方案3】:

你应该使用 numpy,除非你真的不关心速度(尽管我更喜欢它)。因此,您可以使用基于 convolve 或 stride_tricks 的方法(这些方法并不明显,但可以很好地解决这些问题)。

例如给定一个这样的函数(你也可以找到更多更好的版本):

def embed(array, dim, lag=1):
    """Create an embedding of array given a resulting dimension and lag.
    The array will be raveled before embedding.
    """
    array = np.asarray(array)
    array = array.ravel()
    new = np.lib.stride_tricks.as_strided(array,
                                     (len(array)-dim*lag+lag, dim),
                                     (array.strides[0], array.strides[0]*lag))
    return new

你可以这样做:

embedded = embed(array, 400)
result = embedded.sum(1)

内存效率高(嵌入或您所称的任何内容,只会创建一个视图)且速度快。另一种方法当然是使用卷积:

np.convolve(array, np.ones(400), mode='valid')

我不知道你是否也想要非完整窗口,这与使用mode='full'(默认)进行卷积相同。对于另一种方法,则必须以其他方式处理。

【讨论】:

【参考方案4】:
In [42]: lis=[1,2,3,4,5,6,7,8,9,10,11,12]

In [43]: w=3       #window size

In [44]: [sum(lis[i-(w-1):i+1]) if i>(w-1) else sum(lis[:i+1])  for i in range(len(lis))]
Out[44]: [1, 3, 6, 9, 12, 15, 18, 21, 24, 27, 30, 33]

In [45]: w=4

In [46]: [sum(lis[i-(w-1):i+1]) if i>(w-1) else sum(lis[:i+1])  for i in range(len(lis))]
Out[46]: [1, 3, 6, 10, 14, 18, 22, 26, 30, 34, 38, 42]

对于python 2.4或更低版本,更改三元运算符:

(falseValue, trueValue)[condition] 而不是trueValue if condition else falseValue

[(sum(lis[:i+1]),sum(lis[i-(w-1):i+1]))[i>(w-1)]  for i in range(len(lis))]

【讨论】:

@user1440194:你不应该再使用 Python 2.4。这是古老的。甚至 2.5 也已结束生命周期,不再获得安全更新。 @Ashwini Chaudhary,你不应该使用itertools.accumlate()吗? @larsvegas accumulate() 在 python 3.2 中引入,我在 python 2.6 并且 OP 使用 python 2.4。 @user1440194 你能贴出syntaxError 的回溯吗? @Ashwini Chaudhary,嗯,他正在使用NumPy 所以numpy.cumsum() 是要走的路。或者只是定义你的 cumsum 函数。

以上是关于Python 使用给定窗口运行累积总和的主要内容,如果未能解决你的问题,请参考以下文章

使用带有 ORDER BY 的 SQL Server 查找累积总和

django orm 和 postgresql 的累积(运行)总和

在 BigQuery 中使用窗口函数创建活动季度的运行总和

Python Numpy累积/差异[重复]

如何在python中的字典列表中查找项目的累积总和

Pyspark - 获取具有条件的列的累积总和