时间序列分析 - 不均匀间隔测量 - pandas + statsmodels
Posted
技术标签:
【中文标题】时间序列分析 - 不均匀间隔测量 - pandas + statsmodels【英文标题】:Time Series Analysis - unevenly spaced measures - pandas + statsmodels 【发布时间】:2017-01-09 09:55:18 【问题描述】:我有两个 numpy 数组 light_points 和 time_points,想对这些数据使用一些时间序列分析方法。
然后我尝试了这个:
import statsmodels.api as sm
import pandas as pd
tdf = pd.DataFrame('time':time_points[:])
rdf = pd.DataFrame('light':light_points[:])
rdf.index = pd.DatetimeIndex(freq='w',start=0,periods=len(rdf.light))
#rdf.index = pd.DatetimeIndex(tdf['time'])
这可行,但没有做正确的事情。 事实上,测量的时间间隔并不均匀,如果我只是将 time_points pandas DataFrame 声明为我的帧的索引,我会收到一个错误:
rdf.index = pd.DatetimeIndex(tdf['time'])
decomp = sm.tsa.seasonal_decompose(rdf)
elif freq is None:
raise ValueError("You must specify a freq or x must be a pandas object with a timeseries index")
ValueError: You must specify a freq or x must be a pandas object with a timeseries index
我不知道如何纠正这个问题。
此外,熊猫的TimeSeries
似乎已被弃用。
我试过了:
rdf = pd.Series('light':light_points[:])
rdf.index = pd.DatetimeIndex(tdf['time'])
但它给了我一个长度不匹配:
ValueError: Length mismatch: Expected axis has 1 elements, new values have 122 elements
尽管如此,我不明白它来自哪里,因为 rdf['light'] 和 tdf['time'] 长度相同...
最后,我尝试将我的 rdf 定义为 pandas 系列:
rdf = pd.Series(light_points[:],index=pd.DatetimeIndex(time_points[:]))
我明白了:
ValueError: You must specify a freq or x must be a pandas object with a timeseries index
然后,我尝试用
替换索引 pd.TimeSeries(time_points[:])
它给了我关于seasonal_decompose 方法行的错误:
AttributeError: 'Float64Index' object has no attribute 'inferred_freq'
如何处理间隔不均匀的数据? 我正在考虑通过在现有值之间添加许多未知值并使用插值来“评估”这些点来创建一个间隔大致均匀的时间数组,但我认为可能有一个更清洁、更简单的解决方案。
【问题讨论】:
如果您发布Minimal, Complete, and Verifiable example,您将增加更改以获得好的答案。 【参考方案1】:seasonal_decompose()
需要一个freq
,它可以作为DateTimeIndex
元信息的一部分提供,可以由pandas.Index.inferred_freq
推断,或者由用户作为integer
提供每个周期的周期数.例如,每月 12 个(从 docstring
到 seasonal_mean
):
def seasonal_decompose(x, model="additive", filt=None, freq=None): """ Parameters ---------- x : array-like Time series model : str "additive", "multiplicative" Type of seasonal component. Abbreviations are accepted. filt : array-like The filter coefficients for filtering out the seasonal component. The default is a symmetric moving average. freq : int, optional Frequency of the series. Must be used if x is not a pandas object with a timeseries index.
为了说明——使用随机样本数据:
length = 400
x = np.sin(np.arange(length)) * 10 + np.random.randn(length)
df = pd.DataFrame(data=x, index=pd.date_range(start=datetime(2015, 1, 1), periods=length, freq='w'), columns=['value'])
<class 'pandas.core.frame.DataFrame'>
DatetimeIndex: 400 entries, 2015-01-04 to 2022-08-28
Freq: W-SUN
decomp = sm.tsa.seasonal_decompose(df)
data = pd.concat([df, decomp.trend, decomp.seasonal, decomp.resid], axis=1)
data.columns = ['series', 'trend', 'seasonal', 'resid']
Data columns (total 4 columns):
series 400 non-null float64
trend 348 non-null float64
seasonal 400 non-null float64
resid 348 non-null float64
dtypes: float64(4)
memory usage: 15.6 KB
到目前为止,一切都很好 - 现在从 DateTimeIndex
中随机删除元素以创建不均匀的空间数据:
df = df.iloc[np.unique(np.random.randint(low=0, high=length, size=length * .8))]
<class 'pandas.core.frame.DataFrame'>
DatetimeIndex: 222 entries, 2015-01-11 to 2022-08-21
Data columns (total 1 columns):
value 222 non-null float64
dtypes: float64(1)
memory usage: 3.5 KB
df.index.freq
None
df.index.inferred_freq
None
在这个数据上运行seasonal_decomp
'工作':
decomp = sm.tsa.seasonal_decompose(df, freq=52)
data = pd.concat([df, decomp.trend, decomp.seasonal, decomp.resid], axis=1)
data.columns = ['series', 'trend', 'seasonal', 'resid']
DatetimeIndex: 224 entries, 2015-01-04 to 2022-08-07
Data columns (total 4 columns):
series 224 non-null float64
trend 172 non-null float64
seasonal 224 non-null float64
resid 172 non-null float64
dtypes: float64(4)
memory usage: 8.8 KB
问题是 - 结果有多大用处。即使数据中没有导致季节性模式推断复杂化的差距(参见release notes 中.interpolate()
的使用示例,statsmodels
也使此过程符合以下条件:
Notes ----- This is a naive decomposition. More sophisticated methods should be preferred. The additive model is Y[t] = T[t] + S[t] + e[t] The multiplicative model is Y[t] = T[t] * S[t] * e[t] The seasonal component is first removed by applying a convolution filter to the data. The average of this smoothed series for each period is the returned seasonal component.
【讨论】:
你为什么用freq=52
-,为什么52不是另一个数字?
已经有一段时间了,但我相信因为我的示例使用每周随机数据 - 见上文。以上是关于时间序列分析 - 不均匀间隔测量 - pandas + statsmodels的主要内容,如果未能解决你的问题,请参考以下文章