从统计学上讲,statsmodels.tsa.stattools.acf 中的“缺失”参数是啥?

Posted

技术标签:

【中文标题】从统计学上讲,statsmodels.tsa.stattools.acf 中的“缺失”参数是啥?【英文标题】:What is the 'missing' parameter doing in statsmodels.tsa.stattools.acf, statistically speaking?从统计学上讲,statsmodels.tsa.stattools.acf 中的“缺失”参数是什么? 【发布时间】:2020-02-04 09:41:48 【问题描述】:

我正在使用 acf 函数来计算 statsmodels.tsa.stattools.acf 提供的自相关。其中一个参数称为 missing,可以采用值“none”、“raise”、“conservative”和“drop”,这会改变函数处理 NaN 值的方式。问题是,我找不到任何关于如何这些值究竟是什么改变了正在完成的统计数据的文档。

我正在处理一个间隔均匀的时间序列,其中有分散的缺失值和中间的大量缺失测量值。到目前为止,我的解决方案是从时间序列中减去中位数,使其以零为中心,然后在所有缺失值中插入 0。这些参数值中的一个是否会做类似的事情,我应该以不同的方式处理事情吗?

【问题讨论】:

请更新您尝试过的内容 【参考方案1】:

“none”对 NAN 没有任何作用,“raise”会在数据包含 NAN 的情况下引发错误。

MissingDataError("NaNs were encountered in the data")

'drop' 在进行计算之前从代码中删除 NAN,据我了解源代码 (https://www.statsmodels.org/stable/_modules/statsmodels/tsa/stattools.html),选项 'conservative' 将所有 NAN 替换为 0。

    missing = missing.lower()
if missing not in ['none', 'raise', 'conservative', 'drop']:
    raise ValueError("missing option %s not understood" % missing)
if missing == 'none':
    deal_with_masked = False
else:
    deal_with_masked = has_missing(x)
if deal_with_masked:
    if missing == 'raise':
        raise MissingDataError("NaNs were encountered in the data")
    notmask_bool = ~np.isnan(x)  # bool
    if missing == 'conservative':
        # Must copy for thread safety
        x = x.copy()
        x[~notmask_bool] = 0
    else:  # 'drop'
        x = x[notmask_bool]  # copies non-missing
    notmask_int = notmask_bool.astype(int)  # int

【讨论】:

谢谢!这似乎与我在手动删除 NAN 或将其替换为零时看到的一致。

以上是关于从统计学上讲,statsmodels.tsa.stattools.acf 中的“缺失”参数是啥?的主要内容,如果未能解决你的问题,请参考以下文章

(翻译)性能监控之百分位数监控

从技术上讲,啥是数据库连接?

从概念上讲,numpy 中的 N 维数组是啥? [复制]

从技术上讲,为啥 Erlang 中的进程比 OS 线程更高效?

从技术上讲,Oracle JDK 和 OpenJDK 之间的主要区别是啥? [复制]

为什么样本方差除以(n-1)而不是n ?