时序点过程学习笔记

Posted 2021-05-12 朝晖

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了时序点过程学习笔记相关的知识，希望对你有一定的参考价值。

https://zhuanlan.zhihu.com/p/110171621

一、什么是时序点过程

现实世界中有这么个问题：有这么一系列历史事件，每个事件都有其对应的发生时间，也有其所属的事件类型，基于这一系列历史事件，预测下一个要发生的是什么类型的事件，以及其发生的时间。

比如下一次地震发生在何时，何地是事件类型，比如一种股票的下一次买卖将发生在何时，买入或卖出是事件类型，比如用户将在何时去下一个目的地，目的地是哪里是事件类型。

点过程可以对这一系列历史事件建模，来解决这个预测问题。

$\\boldsymbol{s}=\\left\\{\\left(t_{i}, d_{i}\\right)\\right\\}_{i=1}^{l}, d_{i} \\in \\mathcal{D}=\\{1, \\ldots, D\\}$

时序点过程的核心是强度函数 $\\lambda(t)$ 。 $N_d(t)$ 是截止 $t$ 时刻之前事件类型 $d$ 发生的总次数。 $\\lambda_d(t)dt$ 代表在时间窗口 $[t, t+dt]$ 内，事件类型 $d$ 发生的概率。

$\\lambda_d(t)dt = \\frac{\\mathbb{E}\\left[\\mathrm{d} N_{d}(t) | \\mathcal{H}_{t_{\\text {last }}}\\right]dt}{\\mathrm{d} t}=\\frac{p\\left(t, d | \\mathcal{H}_{t_{\\text {last }}}\\right)dt}{1-F\\left(t | \\mathcal{H}_{t_{\\text {last }}}\\right)}$

其中 $p\\left(t, d | \\mathcal{H}_{t_{\\text {last }}}\\right)$ 代表基于历史行为，事件类型 $d$ 在 $t$ 时刻发生的条件概率密度函数； $F\\left(t | \\mathcal{H}_{t_{\\text {last }}}\\right)$ 代表基于历史行为，至少有一个事件类型在 $(t_{last}, t]$ 发生的条件概率。强度函数 $\\lambda(t)$ 为：

$\\begin{aligned} \\lambda(t) &=\\sum_{d=1}^{D} \\lambda_{d}(t) \\\\ &=\\sum_{d=1}^{D} \\frac{p\\left(t, d | \\mathcal{H}_{t_{\\text {last }}}\\right)}{1-F\\left(t | \\mathcal{H}_{t_{\\text {last }}}\\right)}=\\frac{p\\left(t | \\mathcal{H}_{t_{\\text {last }}}\\right)}{1-F\\left(t | \\mathcal{H}_{\\text {last}}\\right)} \\\\ &=\\frac{\\frac{\\mathrm{d} F\\left(t | \\mathcal{H}_{\\text {last }}\\right)}{\\mathrm{d} t}}{1-F\\left(t | \\mathcal{H}_{\\left.t_{\\text {last }}\\right)}\\right.}=-\\frac{\\mathrm{d}}{\\mathrm{d} t} \\log \\left(1-F\\left(t | \\mathcal{H}_{\\text {last }}\\right)\\right) \\end{aligned}$

$\\begin{aligned} F\\left(t | \\mathcal{H}_{t_{\\text {last}}}\\right) &=1-\\exp \\left(-\\int_{t_{\\text {lsst}}}^{t} \\lambda(s) \\mathrm{d} s\\right) \\\\ p\\left(t | \\mathcal{H}_{t_{\\text {last}}}\\right) &=\\lambda(t) \\exp \\left(-\\int_{t_{\\text {last}}}^{t} \\lambda(s) \\mathrm{d} s\\right) \\\\ p\\left(t, d | \\mathcal{H}_{t_{\\text {lsst}}}\\right) &=\\lambda_{d}(t) \\exp \\left(-\\int_{t_{\\text {last}}}^{t} \\lambda(s) \\mathrm{d} s\\right) \\\\ p\\left(d | t, \\mathcal{H}_{t_{\\text {last}}}\\right) &=\\frac{\\lambda_{d}(t)}{\\lambda(t)} \\end{aligned}$

因此，只要能根据历史事件模拟出强度函数 $\\lambda(t)$ ，则可以根据 $\\lambda(t)$ 预测下一个事件。对 $\\lambda(t)$ 的模拟将点过程分为传统点过程和深度点过程。

二、传统点过程

1.homogeneous poisson process假设 $\\lambda(t)$ 独立于历史事件，且随着 $t$ 的变化恒定，即 $\\lambda(t) = \\lambda_0\\geq0$ 。inhomogeneous poisson process假设 $\\lambda(t)$ 独立于历史事件，且随着 $t$ 的变化而变化，即 $\\lambda(t) = g(t)\\geq0$

2.hawkes process 认为历史事件有激励作用: $\\lambda(t)=\\gamma_{0}+\\alpha \\sum_{t_{j}<t} \\gamma\\left(t, t_{j}\\right),\\gamma_{0}\\geq0$ ， $\\alpha\\geq0$ ， $\\gamma\\left(t, t_{j}\\right)=exp(-\\beta(t-t_j))$ ， $\\beta\\geq0$

3. self-correcting process 认为强度函数的趋势是一直在增大，但是当一个事件发生后，会先减小。 $\\lambda(t)=\\exp \\left(\\mu t-\\sum_{t_{i}<t} \\alpha\\right)$ ， $\\mu>0$ ， $\\alpha>0$

三、深度点过程

传统点过程缺点：

（1）传统点过程对强度函数有着上述设定，很有可能不符合实际情况，比如历史事件对强度函数的影响并不一定是累加的；

（2）如果有多种事件类型的话，还需作出各个事件类型是互相独立的假设，并且对每个事件类型求强度函数；

（3）传统点过程对数据的缺失处理不是很好，有时我们只能观测到一部分事件。

深度点过程就无需这么麻烦，用神经网络这样的非线性函数模拟强度函数，这样一个黑盒子无需设定任何先验知识。

1. Recurrent Markd Temporal Point Processes:Embedding Event History to Vector（kdd2016）

输入层：事件类型和发生时间为输入。事件类型用词向量，时间用时间的特征（比如是否周末，是否深夜等）

事件类型生成：普通的softmax

强度函数为：

$\\lambda(t)=\\exp (\\underbrace{\\boldsymbol{v}^{t^{\\top}} \\cdot \\boldsymbol{h}_{j}}_{\\text {past influence }}+\\underbrace{w^{t}\\left(t-t_{j}\\right)}_{\\text {current influence }}+\\underbrace{b^{t}}_{\\text {base intensity }})$

时间生成：用下面这种求平均值的算法比较复杂，没有数值解，有一种简单的解法，我还没弄明白是啥...

$\\begin{array}{l}f(t)=\\lambda(t) \\exp \\left(-\\int_{t_{j}}^{t} \\lambda(\\tau) d \\tau\\right) \\\\ =\\exp \\left\\{\\boldsymbol{v}^{t^{\\top}} \\cdot \\boldsymbol{h}_{j}+w^{t}\\left(t-t_{j}\\right)+b^{t}+\\frac{1}{w} \\exp \\left(\\boldsymbol{v}^{t^{\\top}} \\cdot \\boldsymbol{h}_{j}+b^{t}\\right)\\right. \\\\ \\left.-\\frac{1}{w} \\exp \\left(\\boldsymbol{v}^{t^{\\top}} \\cdot \\boldsymbol{h}_{j}+w^{t}\\left(t-t_{j}\\right)+b^{t}\\right)\\right\\}\\end{array}$

$\\hat{t}_{j+1}=\\int_{t_{j}}^{\\infty} t \\cdot f(t) d t$

loss: $\\ell\\left(\\left\\{\\mathcal{S}^{i}\\right\\}\\right)=\\sum_{i} \\sum_{j}\\left(\\log P\\left(y_{j+1}^{i} | \\boldsymbol{h}_{j}\\right)+\\log f\\left(d_{j+1}^{i} | \\boldsymbol{h}_{j}\\right)\\right)$

实验使用的四个数据集：

New York City Taxi Dataset：共173 million记录，299个事件类型，670753 个序列

Financial Transaction Dataset：共0.7 million记录，2个事件类型，693499 个序列

Electrical Medical Records：204个事件类型，650个病人的序列

Stack OverFlow Dataset ：共480k记录，81个事件类型，6k用户的序列

代码地址: https://github.com/dunan/NeuralPointProcess

2. The Neural Hawkes Process: A Neurally Self-Modulating Multivariate Point Process（nips 2017）

上一篇论文中，lstm的不同时步的hidden state是离散的，换句话说：当一个新事件发生后，断崖式变化。本文提出一个连续的hidden state变化方式。

$\\lambda_{k}(t)=f_{k}\\left(\\mathbf{w}_{k}^{\\top} \\mathbf{h}(t)\\right)$ $\\mathbf{h}(t)=\\mathbf{o}_{i} \\odot(2 \\sigma(2 \\mathbf{c}(t))-1) \\text { for } t \\in\\left(t_{i-1}, t_{i}\\right]$

事件 $i-1$ 到事件 $i$ 之间的 $t$ 时刻，强度函数由 $\\mathbf{h}(t)$ 决定， $\\mathbf{h}(t)$ 由 $\\mathbf{c}(t)$ 决定。注意 $\\mathbf{c}(t)$ 在上篇论文是没有的哦，因为上一篇论文只有事件 $i-1$ 到事件 $i$ ，没有他们之间的 $t$ 时刻

$\\begin{aligned} \\mathbf{i}_{i+1} & \\leftarrow \\sigma\\left(\\mathbf{W}_{\\mathbf{i}} \\mathbf{k}_{i}+\\mathbf{U}_{\\mathbf{i}} \\mathbf{h}\\left(t_{i}\\right)+\\mathbf{d}_{\\mathbf{i}}\\right) \\\\ \\mathbf{f}_{i+1} & \\leftarrow \\sigma\\left(\\mathbf{W}_{\\mathbf{f}} \\mathbf{k}_{i}+\\mathbf{U}_{\\mathbf{f}} \\mathbf{h}\\left(t_{i}\\right)+\\mathbf{d}_{\\mathbf{f}}\\right) \\\\ \\mathbf{z}_{i+1} & \\leftarrow 2 \\sigma\\left(\\mathbf{W}_{\\mathbf{z}} \\mathbf{k}_{i}+\\mathbf{U}_{\\mathbf{z}} \\mathbf{h}\\left(t_{i}\\right)+\\mathbf{d}_{\\mathbf{z}}\\right)-1 \\\\ \\mathbf{o}_{i+1} & \\leftarrow \\sigma\\left(\\mathbf{W}_{\\mathbf{o}} \\mathbf{k}_{i}+\\mathbf{U}_{\\mathbf{o}} \\mathbf{h}\\left(t_{i}\\right)+\\mathbf{d}_{\\mathbf{o}}\\right) \\end{aligned}$

$\\begin{array}{l}\\mathbf{c}_{i+1} \\leftarrow \\mathbf{f}_{i+1} \\odot \\mathbf{c}\\left(t_{i}\\right)+\\mathbf{i}_{i+1} \\odot \\mathbf{z}_{i+1} \\\\ \\overline{\\mathbf{c}}_{i+1} \\leftarrow \\overline{\\mathbf{f}}_{i+1} \\odot \\overline{\\mathbf{c}}_{i}+\\overline{\\boldsymbol{\\imath}}_{i+1} \\odot \\mathbf{z}_{i+1} \\\\ \\boldsymbol{\\delta}_{i+1} \\leftarrow f\\left(\\mathbf{W}_{\\mathrm{d}} \\mathbf{k}_{i}+\\mathbf{U}_{\\mathrm{d}} \\mathbf{h}\\left(t_{i}\\right)+\\mathbf{d}_{\\mathrm{d}}\\right)\\end{array}$

$\\mathbf{c}(t) \\stackrel{\\text { def }}{=} \\overline{\\mathbf{c}}_{i+1}+\\left(\\mathbf{c}_{i+1}-\\overline{\\mathbf{c}}_{i+1}\\right) \\exp \\left(-\\boldsymbol{\\delta}_{i+1}\\left(t-t_{i}\\right)\\right) \\text { for } t \\in\\left(t_{i}, t_{i+1}\\right]$

这里的 $\\mathbf{h}(t_i)$ 和 $\\mathbf{c}(t_i)$ 都不和上一篇论文中一样，而是 $\\mathbf{h}(t)$ 和 $\\mathbf{c}(t)$ 在 $t_i$ 时刻的值。

可见 $\\mathbf{c}(t)$ 事件 $i$ 到事件 $i+1$ 之间从 $\\mathbf{c}_{i+1}$ 向 $\\overline{\\mathbf{c}}_{i+1}$ 变化的，至于 $\\overline{\\mathbf{c}}_{i+1}$ 怎么来的，大概是训练的参数吧（还没太明白）。

loss是根据强度函数算的：

$\\ell=\\sum_{i: t_{i} \\leq T} \\log \\lambda_{k_{i}}\\left(t_{i}\\right)-\\underbrace{\\int_{t=0}^{T} \\lambda(t) d t}_{\\text {call this } \\Lambda}$

本文的测试数据集：

Retweets Dataset：3个事件类型，1739547 个序列，序列长度109

MemeTrack Dataset：5000个事件类型，93267 个序列，序列长度3

3. CTRec: A Long-Short Demands Evolution Model for Continuous-Time Recommendation（SIGIR 2019）

这篇文章主要是将深度点过程用在商品推荐上，之前的商品推荐只考虑推荐对的商品，没有考虑在对的时间推荐对的商品，比如用户刚买了个厕所读物，不代表它喜欢厕所读物，不能一直给他推荐厕所读物，而应该考虑商品周期，等他看完了上一本，再给他推荐新的（长期需求）。再比如用户买了个画板，就得立马推荐颜料了（短期需求）。总之，就是考虑用户画像、短期需求和长期需求。

论文有三个创新点：使用的连续lstm，就是上一篇论文中的；使用cnn捕捉短期需求；使用attention捕捉长期需求。

强度函数融合了用户画像、短期需求和长期需求。

$\\lambda_{i}(t ; \\theta)=f(\\underbrace{w_{i}^{i t e m \\top} \\cdot h(t)}_{\\text {short-term }}+\\underbrace{w_{i}^{a t t r i^{\\top}} \\cdot \\vartheta(t)}_{\\text {long-term }}+\\underbrace{w_{i}^{u s e r \\top} \\cdot u}_{\\text {basic demands }})$

cnn使用k个核做多层卷积，最后average pooling。

attention：

$\\alpha_{t, t_{j}}=\\boldsymbol{h}\\left(t_{j}\\right)^{\\top} \\boldsymbol{i}_{t}-\\lambda \\log \\left(\\max \\left\\{\\gamma, d_{a_{t}, a_{t_{j}}}^{u}-\\Delta_{a_{t}, a_{t_{j}}}^{u}\\right\\}\\right)$

$\\mathcal{P}_{t}=\\sum_{j=1}^{n} \\frac{\\exp \\left(\\alpha_{t, t_{j}}\\right)}{\\sum_{q=1}^{n} \\exp \\left(\\alpha_{t, t_{q}}\\right)} \\boldsymbol{h}\\left(t_{j}\\right)$

$\\begin{aligned} \\ell\\left(I_{t}^{u} ; \\theta\\right) &=\\sum_{j=1}^{n} \\log \\operatorname{Pr}\\left(i_{t_{j}} | I_{t_{j}}^{u}, \\Delta t_{j}\\right) \\\\ &=\\underbrace{\\sum_{j=1}^{n} \\log \\lambda_{i_{t_{j}}}\\left(t_{j} ; \\theta\\right)}_{\\text {purchase }}-\\sum_{i_{\\text {neg}} \\in I} \\int_{t_{1}}^{t_{n}} \\lambda_{i_{\\text {neg}}}(t) d t \\\\ &=\\sum_{i_{\\text {neg}} \\in I} \\sum_{j=1}^{n}\\left(\\frac{1}{|I|} \\log \\lambda_{i_{t_{j}}}\\left(t_{j} ; \\theta\\right)-\\int_{t_{j-1}}^{t_{j}} \\lambda_{\\text {ineg}}(t) d t\\right) \\end{aligned}$

$i_{n+\\epsilon}=\\arg \\max _{i} \\int_{t_{n}}^{t_{n+\\epsilon}} \\frac{\\lambda_{i}(t ; \\theta)}{\\sum_{j \\in I} \\lambda_{j}(t ; \\theta)} p_{i}(t ; \\theta) d t, \\epsilon \\in \\mathbb{N}^{*}$

以上是关于时序点过程学习笔记的主要内容，如果未能解决你的问题，请参考以下文章