时间序列数据的隔离森林

Posted

技术标签:

【中文标题】时间序列数据的隔离森林【英文标题】:Isolation Forest for time series data 【发布时间】:2020-11-05 16:07:30 【问题描述】:

我只是想知道隔离森林 (iForest) 是否可以处理时间序列数据。据我所知,iForest是用于异常检测的,它是基于随机化技术对数据进行随机递归分区,然后将分区保存在树形结构中。

我有一个理论问题。我只是想知道 iForest 是否可以处理时间序列数据,因为它基于一些随机化技术。这是否会违反时间序列特征,因为随机化可能会破坏时间依赖性?

【问题讨论】:

【参考方案1】:

默认情况下,隔离森林将有助于检测点异常,因为原则上它只是处理这些观察的稀有性。

但是假设我对时间序列数据中的异常感兴趣。隔离林将能够在此处挑选出作为 异常出现的极端峰谷,但对于集体异常,您可能需要转换数据使得每个观察代表一组观察(滚动窗口操作)等。

原因是在时间序列数据中,您对加性异常值或时间变化感兴趣,因此如果您计划使用隔离森林,您的观察结果必须单独表示。但是您可以尝试其他技术,例如 STL 分解、Arima、回归树、指数平滑。您应该找到很多关于如何使用上述方法在时间序列中进行异常检测的材料。

【讨论】:

以上是关于时间序列数据的隔离森林的主要内容,如果未能解决你的问题,请参考以下文章

离群值检测中的隔离森林与鲁棒随机森林砍伐森林

数学建模学习(74):隔离森林的异常值查找,简单的学会

用于无监督异常检测的 Python AUC 计算(隔离森林、椭圆包络,...)

使用 gridSearchCV 调整隔离林参数

异常检测及欺诈

如何绘制 ROC 曲线的平均值?