无法使用新观察值更新 StatsModels SARIMAX (ValueError)

Posted

技术标签:

【中文标题】无法使用新观察值更新 StatsModels SARIMAX (ValueError)【英文标题】:Can't update StatsModels SARIMAX with new observation (ValueError) 【发布时间】:2021-09-17 07:45:10 【问题描述】:

我正在尝试使用 SciKitLearn 的 TimeSeriesSplit() 在时间序列数据集上运行样本外验证,以创建训练/测试折叠。

这个想法是在火车折叠上训练 Statsmodel 的 SARIMAX,然后在测试折叠上进行验证,而无需重新拟合模型。为此,我们必须在预测之前迭代地将来自测试折叠的新观察结果一次一个地附加到模型中。

但是,我在该附加步骤中收到了 ValueError: ValueError: Given `endog` does not have an index that extends the index of the model.

这对我来说毫无意义。如果我为每个折叠打印出print(max(train_fold.index), min(test_fold.index)),显然火车折叠的最后一个索引低于测试折叠的第一个索引。就我而言:

1983-05 1983-06
1984-05 1984-06
1985-05 1985-06
1986-05 1986-06
1987-05 1987-06

这是当前的完整代码。我确定我在做一些愚蠢的事情,但我被困住了:

# Create a generator that yields the indices of our train and test folds
split = TimeSeriesSplit(n_splits=5).split(train_series)

# Loop through each fold
for train_idcs, test_idcs in split:

    # Create an empty prediction list to append to
    predictions = []

    # Create the folds
    train_fold = train_series[train_idcs]
    test_fold = train_series[test_idcs]

    # Fit the model on the training fold
    model_instance = sm.tsa.statespace.SARIMAX(
        train_fold,
        order=(1, 0, 0),
        seasonal_order=(1, 0, 0, 12),
        simple_differencing=True,
        enforce_stationarity=False,
        enforce_invertibility=False,
    )
    model_fitted = model_instance.fit(disp=False)

    # Create the initial prediction
    pred = model_fitted.forecast(steps=1)[
        0
    ]  # Slice so we just get the forecast value only
    predictions.append(pred)

    # Now loop through the test set, adding observations individually,
    # and getting the next prediction
    for i in range(len(test_fold)):

        # Get the next row
        next_row = test_fold.iloc[
            i : i + 1
        ]  # Returns single row but in series form (which statsmodels expects)

        # Append the row to the model
        model_fitted.append(next_row, refit=False)

        # Get the new prediction
        pred = model_fitted.forecast(steps=1)[
            0
        ]  # Slice so we just get the forecast value only
        predictions.append(pred)

    print(predictions)

model_fitted.append(next_row, refit=False) 是故障点。有任何想法吗?谢谢!

【问题讨论】:

【参考方案1】:

知道了!太傻了。

SARIMAX 模型的.append() 方法返回模型本身,而不是更改模型中存储的数据。

所以正确的代码很简单: model_fitted = model_fitted.append(next_row, refit=False)

【讨论】:

以上是关于无法使用新观察值更新 StatsModels SARIMAX (ValueError)的主要内容,如果未能解决你的问题,请参考以下文章

Python:使用 Statsmodels 预测 y 值 - 线性回归

使用 statsmodels 忽略多个 OLS 回归中的缺失值

敲除可观察字段未在输入值更改时更新

无法使用 statsmodels 库实现 Holt-Winters 方法

Knockoutjs 单击并编辑字段不更新可观察的

忽略 Python 的 statsmodels 中的 NaN