Python ARIMA 外生变量超出样本

Posted

技术标签:

【中文标题】Python ARIMA 外生变量超出样本【英文标题】:Python ARIMA exogenous variable out of sample 【发布时间】:2014-09-22 12:40:49 【问题描述】:

我试图预测包含外生变量的 python statsmodels ARIMA 包中的时间序列,但无法找出在预测步骤中插入外生变量的正确方法。有关文档,请参阅 here。

import numpy as np
from scipy import stats
import pandas as pd

import statsmodels.api as sm

vals = np.random.rand(13)
ts = pd.TimeSeries(vals)
df = pd.DataFrame(ts, columns=["test"])
df.index = pd.Index(pd.date_range("2011/01/01", periods = len(vals), freq = 'Q'))

fit1 = sm.tsa.ARIMA(df, (1,0,0)).fit()
#this works fine:
pred1 = fit1.predict(start=12, end = 16)
print(pred1)

Out[32]: 
2014-03-31    0.589121
2014-06-30    0.747575
2014-09-30    0.631322
2014-12-31    0.654858
2015-03-31    0.650093
Freq: Q-DEC, dtype: float64

现在添加一个趋势外生变量

exogx = np.array(range(1,14))
#to make this easy, let's look at the ols of the trend (arima(0,0,0))
fit2 = sm.tsa.ARIMA(df, (0,0,0),exog = exogx).fit()
print(fit2.params)

const    0.555226
x1       0.013132
dtype: float64

print(fit2.fittedvalues)

2011-03-31    0.568358
2011-06-30    0.581490
2011-09-30    0.594622
2011-12-31    0.607754
2012-03-31    0.620886
2012-06-30    0.634018
2012-09-30    0.647150
2012-12-31    0.660282
2013-03-31    0.673414
2013-06-30    0.686546
2013-09-30    0.699678
2013-12-31    0.712810
2014-03-31    0.725942
Freq: Q-DEC, dtype: float64

注意,正如我们所料,这是一条趋势线,随着时间的推移每增加一个刻度,增加 0.013132(当然这是随机数据,所以如果你运行它,值会有所不同,但正面或负面的趋势故事将是相同的)。因此,下一个值(时间 = 14)应该是 0.555226 + 0.013132*14 = 0.739074。

#out of sample exog should be (14,15,16)
pred2 = fit2.predict(start = 12, end = 16, exog = np.array(range(13,17)))
print(pred2)
2014-03-31    0.725942
2014-06-30    0.568358
2014-09-30    0.581490
2014-12-31    0.594622
2015-03-31    0.765338
Freq: Q-DEC, dtype: float64

所以,2014-03-31 正确预测(最后一个 insample),但 2014-06-30 从头开始​​(t = 1),但请注意 2015-03-31(实际上,总是最后一次观察预测,无论水平如何)都取 t = 16(即(值 - 截距)/beta = (0.765338 - 0.555226)/0.013132)。

为了更清楚地说明这一点,请注意当我膨胀 x mat 的值时会发生什么

fit2.predict(start = 12, end = 16, exog = np.array(range(13,17))*10000)
Out[41]: 
2014-03-31       0.725942
2014-06-30       0.568358
2014-09-30       0.581490
2014-12-31       0.594622
2015-03-31    2101.680532
Freq: Q-DEC, dtype: float64

看到 2015-03-31 爆炸了,但没有考虑其他 xmat 值?我在这里做错了什么???

我已经尝试过所有我知道如何传递 exog 变量的方法(改变维度,使 exog 成为矩阵,使 exog 只要输入加上地平线,等等,等等)。任何建议将不胜感激。

我正在使用来自 Anaconda2.1 的 2.7 numpy 1.8.1 scipy 0.14.0 熊猫 0.14.0 statsmodels 0.5.0

并已在 windows 7 64 位和 centos 64 位上验证了该问题。

还有一些事情。我将 ARIMA 用于 ARIMA 功能,以上只是为了说明(也就是说,我不能“只使用 OLS ...”,正如我想象的那样)。由于项目的限制(更一般地说,基础 Spark 中缺乏对 R 的支持),我也不能“只使用 R”。

这里是代码中有趣的部分,如果你想自己尝试一下

import numpy as np
from scipy import stats
import pandas as pd
import statsmodels.api as sm

vals = np.random.rand(13)
ts = pd.TimeSeries(vals)
df = pd.DataFrame(ts, columns=["test"])
df.index = pd.Index(pd.date_range("2011/01/01", periods = len(vals), freq = 'Q'))

exogx = np.array(range(1,14))
fit2 = sm.tsa.ARIMA(df, (0,0,0),exog = exogx).fit()
print(fit2.fittedvalues)
pred2 = fit2.predict(start = 12, end = 16, exog = np.array(range(13,17))*10000)
print(pred2)

【问题讨论】:

请注意,这些问题在以下文章中有所提及(但未直接讨论):github.com/statsmodels/statsmodels/issues/1076***.com/questions/18721547/… 【参考方案1】:

如果有人使用预测功能,这对我来说是一步预测。

历史是训练数组

exog为外部变量数组

Y_exog_test 超出样本对应的外部变量。 将其更改为 ARIMAX,它应该可以工作

model = sm.tsa.statespace.SARIMAX(history, trend='c', order=(1,1,1),seasonal_order=(0,1,0,24),exog=yexog)

model_fit = model.fit()

predicted = model_fit.forecast(step=1,exog=[[Y_exog_test]], dynamic=True)

【讨论】:

【参考方案2】:

在拟合 fit2 时,您已经提到了 exog 变量,因此无需重复:

exogx = np.array(range(1,5)) # I think you will need 4 exegeneous variables to perform an ARIMAX(0,0,0) since you want out of sample forecast with 4 steps ahead
fit2 = sm.tsa.ARIMA(df, (0,0,0),exog = exogx).fit()
# if you want to do an out-of-sample-forecast use fit2.forecast(steps) instead
#I would do this
pred = fit2.forecast(steps = 4)
fcst_index = pd.date_range(start = df.shift(1,'10T').index[-1]  , periods = 4, freq = '10T')
fcst_serie = pd.Series(data = pred1[0], index = fcst_index)
print fcst_serie

希望对您有所帮助! 这是一篇很棒的文章。我以前从未在 ARIMA 上尝试过外生变量,但论文说无论您使用的是什么领域,它都不是真正相关的(如果需要,将搜索论文,或者您可以谷歌搜索)

【讨论】:

请问有人设法完成这项工作吗?面临同样的问题。【参考方案3】:

这可能最好发布在github issue tracker 上。不过我提交了ticket。

最好在那里提交一张票,否则我可能会忘记它。这几天很忙。

k_ar == 0 的特殊情况的逻辑存在错误。应该修复。让我知道你是否可以/不能给那个补丁一个旋转。如果没有,我可以做一些更严格的测试并合并它。

Spark 上的统计模型?我很感兴趣。

【讨论】:

以上是关于Python ARIMA 外生变量超出样本的主要内容,如果未能解决你的问题,请参考以下文章

带有外生变量的 SARIMAX 滚动窗口

Python:仅使用 1 个外生变量执行数百万次简单线性回归的最快方法

arima.sim() 函数具有不同的:样本大小、phi 值和 sd 值

具有外生变量矩阵的 statsmodels SARIMAX 大小不同

如何在VARMAX模型中使用多前一步的外生变量

Sklearn线性回归拟合输入顺序?外生变量先行吗?