Pandas - 在多个时间序列组内插值/插补缺失值

Posted

技术标签:

【中文标题】Pandas - 在多个时间序列组内插值/插补缺失值【英文标题】:Pandas - Interpolating/imputing missing values within groups of multiple time series 【发布时间】:2020-02-05 15:23:50 【问题描述】:

我正在使用一个数据集,其中包含有关多个用户的每月信息。并且每个用户都有不同的时间范围。每个用户也缺少数据。我想做的是根据每个用户的时间范围(从 min.time 到 max.time 以月为单位)填写每个用户的缺失数据。

由于数据模式属于时间序列,因此线性插值没有意义。我还根据“用户”和“日期”为数据框设置了多索引,但基于“时间”的插值不起作用(因为它尚未实现)

x = pd.DataFrame('user': ['a','a','a','a','a','a','a','a','b','b','b','b','b','b','b','b','b','c','c','c','c','c','c','c','c'],'dt':['2015-01-01','2015-02-01','2015-03-01','2015-04-01','2015-05-01','2015-06-01','2015-07-01','2015-08-01','2016-01-01','2016-02-01','2016-03-01','2016-04-01','2016-05-01','2016-06-01','2016-07-01','2016-08-01','2016-09-01','2017-01-01','2017-02-01','2017-03-01','2017-04-01','2017-05-01','2017-06-01','2017-07-01','2017-08-01'], 'val': [1,33,np.nan,1,np.nan,4,2,np.nan,66,2,5,1,np.nan,np.nan,7,5,np.nan,1,np.nan,7,4,np.nan,5,3,np.nan])

user         dt     val
0     a 2015-01-01    1
1     a 2015-02-01   33
2     a 2015-03-01  NaN
3     a 2015-04-01    1
4     a 2015-05-01  NaN
5     a 2015-06-01    4
6     a 2015-07-01    2
7     a 2015-08-01  NaN
8     b 2016-01-01   66
9     b 2016-02-01    2
10    b 2016-03-01    5
11    b 2016-04-01    1
12    b 2016-05-01  NaN
13    b 2016-06-01  NaN
14    b 2016-07-01    7
15    b 2016-08-01    5
16    b 2016-09-01  NaN
17    c 2017-01-01    1
18    c 2017-02-01  NaN
19    c 2017-03-01    7
20    c 2017-04-01    4
21    c 2017-05-01  NaN
22    c 2017-06-01    5
23    c 2017-07-01    3
24    c 2017-08-01  NaN

在上面的数据集中,“val”列有几个缺失值,我正在研究如何为几个“用户”自动化执行此操作的过程。

此外,考虑到否,为每个用户构建时间序列模型是否有意义。每个用户的数据点数?

任何输入/解决方法将不胜感激。

谢谢, 卢克。

【问题讨论】:

你能展示你的预期输出吗? x.groupby('user')['val'].apply(lambda x: x.ffill())? 请检查我的答案 @ansev 我已经为“用户”和“日期”上的数据框设置了多索引,并且 interpolate(method = 'time') 失败。既然是时间序列数据,那么线性插值或均值插值是否有意义? 我认为线性插值更有意义。因为通过这种方式,值取决于最接近的值。如果用户急剧改变他的活动,也不会出现峰值。但这取决于您要提供的应用程序 【参考方案1】:

您可以根据用户使用Groupby + apply 填充缺失值。无需为每个用户创建一个系列。

这是一个如何填写缺失数据的示例( 除了这些方法您还可以创建自己的函数):

1.用interpolate为每个组插值。用fillna填充

x['val']=x.groupby('user')['val'].apply(lambda x: x.fillna(x.interpolate()))
print(x)

   user          dt   val
0     a  2015-01-01   1.0
1     a  2015-02-01  33.0
2     a  2015-03-01  17.0
3     a  2015-04-01   1.0
4     a  2015-05-01   2.5
5     a  2015-06-01   4.0
6     a  2015-07-01   2.0
7     a  2015-08-01   2.0
8     b  2016-01-01  66.0
9     b  2016-02-01   2.0
10    b  2016-03-01   5.0
11    b  2016-04-01   1.0
12    b  2016-05-01   3.0
13    b  2016-06-01   5.0
14    b  2016-07-01   7.0
15    b  2016-08-01   5.0
16    b  2016-09-01   5.0
17    c  2017-01-01   1.0
18    c  2017-02-01   4.0
19    c  2017-03-01   7.0
20    c  2017-04-01   4.0
21    c  2017-05-01   4.5
22    c  2017-06-01   5.0
23    c  2017-07-01   3.0
24    c  2017-08-01   3.0

2。 ffill方法:

x['val']=x.groupby('user')['val'].apply(lambda x: x.ffill())

   user          dt   val
0     a  2015-01-01   1.0
1     a  2015-02-01  33.0
2     a  2015-03-01  33.0
3     a  2015-04-01   1.0
4     a  2015-05-01   1.0
5     a  2015-06-01   4.0
6     a  2015-07-01   2.0
7     a  2015-08-01   2.0
8     b  2016-01-01  66.0
9     b  2016-02-01   2.0
10    b  2016-03-01   5.0
11    b  2016-04-01   1.0
12    b  2016-05-01   1.0
13    b  2016-06-01   1.0
14    b  2016-07-01   7.0
15    b  2016-08-01   5.0
16    b  2016-09-01   5.0
17    c  2017-01-01   1.0
18    c  2017-02-01   1.0
19    c  2017-03-01   7.0
20    c  2017-04-01   4.0
21    c  2017-05-01   4.0
22    c  2017-06-01   5.0
23    c  2017-07-01   3.0
24    c  2017-08-01   3.0

3.使用mean的组。填写fillna:

x['val']=x.groupby('user')['val'].apply(lambda x: x.fillna(x.mean()))
print(x)

   user          dt        val
0     a  2015-01-01   1.000000
1     a  2015-02-01  33.000000
2     a  2015-03-01   8.200000
3     a  2015-04-01   1.000000
4     a  2015-05-01   8.200000
5     a  2015-06-01   4.000000
6     a  2015-07-01   2.000000
7     a  2015-08-01   8.200000
8     b  2016-01-01  66.000000
9     b  2016-02-01   2.000000
10    b  2016-03-01   5.000000
11    b  2016-04-01   1.000000
12    b  2016-05-01  14.333333
13    b  2016-06-01  14.333333
14    b  2016-07-01   7.000000
15    b  2016-08-01   5.000000
16    b  2016-09-01  14.333333
17    c  2017-01-01   1.000000
18    c  2017-02-01   4.000000
19    c  2017-03-01   7.000000
20    c  2017-04-01   4.000000
21    c  2017-05-01   4.000000
22    c  2017-06-01   5.000000
23    c  2017-07-01   3.000000
24    c  2017-08-01   4.000000

【讨论】:

【参考方案2】:

我会这样做的。

假设您知道要如何推断缺失值。

然后我会创建你用来估算数据的函数,它应该是这样的:

def f(x):
    # x is a DataFrame with columns [datetime, value]
    # ...
    # ...
    output = ...
    # output is a dataframe with columns [datetime, value],
    # where value is a column with the data imputed (so without nans)
    return output

那么你可以这样做:

x.groupby(user).apply(f)

【讨论】:

以上是关于Pandas - 在多个时间序列组内插值/插补缺失值的主要内容,如果未能解决你的问题,请参考以下文章

数据插补—拉格朗日插值法

Python Pandas 插值:在缺失的日期范围内重新分配值

使用 fancyimpute 和 pandas 进行数据插补

pandas使用interpolate函数并设置method参数使用不同的插值算法对缺失值进行填充

多重插补为啥要汇总分析

pandas dataframe缺失值(np.nan)处理:识别缺失情况删除0值填补均值填补中位数填补加缺失标签插值填充详解及实例