点过程的异常事件检测方法

Posted 2022-01-08 Jie Qiao

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了点过程的异常事件检测方法相关的知识，希望对你有一定的参考价值。

本文是NeurIPS 2021 论文 “Detecting Anomalous Event Sequences with Temporal Point Processes” 的笔记

本文需要用到点过程的一些基本性质，建议先去看看这篇文章：

点过程及其性质介绍（Point Processes）

Detecting Anomalous Event Sequences with Temporal Point Processes

我们会在很多地方遇到事件类型的数据，比如日志，金融，用户活动等场景。在这类数据上做异常检测是一件非常重要的事情。

异常检测的常用方法就是，out-of-distribution(OoD)检测，换句话说，就是如果出现一个在正常情况下很难发生的事件，我们就可以称为异常。

然而，如果要判断OoD，我们需要已知正常数据的分布，而这往往是未知的，且估计分布的方法也往往不太靠谱，所以我们一般倾向于使用goodness of fit(GoF)的方法，即判断一个数据，是否属于一个模型，这是相对好做的，因为模型是已知的，也就是计算goodness of fit就可以了。

为了检验点过程的goodness of fit，我们可以将点过程(Temporal Point Processes TPP)转化为标准的泊松过程：

Theorem 1 (Random time change theorem (Brown et al., 2002)). A sequence $t_1 ,\\dotsc ,t_N)$ is distributed according to a TPP with compensator $\\Lambda ^*$ on the interval $[0, V]$ if and only if the sequence $Z=\\left( \\Lambda ^*( t_1) ,\\dotsc ,\\Lambda ^*( t_N)\\right)$ is distributed according to the standard Poisson process on $\\left[ 0,\\Lambda ^* (V)\\right]$ .

其中 $\\Lambda ^* =\\int ^t_0 \\lambda ^*( u) du$ 表示intensity在时间[0,t]内的累计量， $\\lambda ^*( t)$ 表示在t时刻的intensity，表示受到过去事件激发的程度。

这个定理告诉我们，任意一个点过程的序列，用compensator重写一下得到的序列，这个序列就是一个标准的泊松过程。具体解释可以参考我的文章：

因此，我们可以使用这个转换后的序列，使用任何标准泊松分布的GoF检验来检验我们的点过程。那么一般标准泊松过程的检验方法有哪些呢？这里介绍两种，分别利用了泊松过程的两种不同性质。

第一种性质是在一个发生N次事件的区间 $\\displaystyle [ 0,T]$ 内，事件发生的时间是服从在均匀分布 $\\displaystyle U( 0,T)$ 的。因此，我们只需要用Kolmogorov–Smirnov (KS)-test来检验序列这样一个序列是否服从 $\\displaystyle [ 0,T]$ 的均匀分布就可以了。

第二个性质就是，每个到达时间的区间长度是服从指数分布 $\\displaystyle Exp( 1)$ 的。因此，我们只算出区间长度，然后检验这个序列是否服从指数分布就可以了。

然而这两种方法的问题在于，他们对事件发生次数是不敏感的 (即使一个非常异常的事件发生次数也有可能被认为正常)，这会导致很多case不敏感，导致无法判别异常，如下图所示：

这篇文章提出一种3S统计量(sum-of-squared-spacings (3S) statistic)，对于泊松分布序列 $\\displaystyle Z=( v_1 ,...,v_N)$ 满足

$\\psi (Z)=\\frac1V\\sum ^N+1_i=1 w^2_i =\\frac1V\\sum ^N+1_i=1( v_i -v_i-1)^2$

这里V是时间区间长度 $\\displaystyle [ 0,V]$ ，并且假设 $\\displaystyle v_i$ 是已经经过排序的。从图2a中也可以看到，3S统计量对N是非常敏感的，这有助于我们发现异常的事件。那么怎么用这个3s统计量来检验我们的泊松过程呢？这里介绍他的均值和方差的性质：

Proposition 1. Suppose the sequence $Z$ is distributed according to the standard Poisson process on the interval $[0, V]$ . Then the first two moments of the statistic $\\psi :=\\psi (Z)$ are

$\\mathbbE [\\psi \\mid V]=\\frac2V\\left( V+e^-V -1\\right) \\ \\textand \\ \\operatornameVar [\\psi \\mid V]=\\frac4V^2\\left( 2V-7+e^-V\\left( 2V^2 +4V+8-e^-V\\right)\\right)$

From Proposition 1 it follows that

$\\lim _V\\rightarrow \\infty \\mathbbE [\\psi \\mid V]=2\\ \\ \\lim _V\\rightarrow \\infty \\operatornameVar [\\psi \\mid V]=0$

当时间趋于无穷的时候，均匀为2，方差为0，也就是等于一个常数2，所以，一个最简单的方法就是看他是不是等于2.

最后一个检测样本是否为ood，并计算p值的算法流程如下

def compute_p_value (x_test , samples , score_fn ):
	scores_id = [ score_fn (x) for x in samples ]
	score_x = score_fn ( x_test )
	num_train = len( samples )
	num_above = 0
	for s in scores_id :
	if s > score_x :
		num_above += 1
			num_below = num_train - num_above
	return min(
		( num_below + 1) / ( num_train + 1),
		( num_above + 1) / ( num_train + 1)
)

score_fn就是计算统计量的函数，比如3s统计量，samples可以是从数据集中采样的样本，也可以是由模型生成的样本，这里有很多份采样的样本。x_test则是我们要检验是否异常的样本，具体来说，就是我们通过估计统计量在该分布上的一个分布情况，然后看看测试的数据落在这个分布的那个位置。

以上是关于点过程的异常事件检测方法的主要内容，如果未能解决你的问题，请参考以下文章

点过程的异常事件检测方法

时序异常检测算法

机器学习之异常点检测

时间序列分析：趋势时间序列分析之异常点检测和FORECAST过程建立趋势模式

异常点检测方法

一文读懂！异常检测全攻略！从统计方法到机器学习 ⛵