论文笔记 A Spatial-Temporal Decomposition Based Deep Neural Network for TimeSeries Forecasting

Posted UQI-LIUWJ

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了论文笔记 A Spatial-Temporal Decomposition Based Deep Neural Network for TimeSeries Forecasting相关的知识,希望对你有一定的参考价值。

0 abstract

        空间时间序列预测问题出现在广泛的应用中,如环境和交通问题。由于存在特定的空间、短期和长期模式,以及维度的诅咒,这些问题具有挑战性。

在本文中,我们提出了一个用于大规模空间时间序列预测问题的深度神经网络框架。我们明确设计了捕捉各种类型模式的神经网络架构。

  • 在预处理中,应用时间序列分解方法将短期、长期和空间模式分别送入神经网络的不同组成部分。
  • 模糊聚类方法根据时间序列残差的相似性找到相邻时间序列的聚类;因为它们可以成为空间时间序列的有意义的短期模式。
  • 在神经网络结构中,多核卷积层的每个核被应用于时间序列的聚类,以提取邻近区域的短期特征。
  • 卷积层的输出按趋势进行串联,然后用卷积-LSTM层来捕捉更大区域内的长期模式。
  • 为了在面临数据缺失时做出稳健的预测,一个无监督的预训练去噪自动编码器在一个微调步骤中重建了模型的输出。

实验结果表明,该模型在交通流量预测数据集中的表现优于基线和最先进的模型。

1 introduction & literature revies

         时间序列数据出现在广泛的领域,例如工程、医学、金融和经济学。 各种类型的统计和机器学习技术已应用于时间序列分析。

        最近,已经研究了几种新的可扩展时间序列分析,例如预测 [1]、异常检测 [2]、分类 [3] 和聚类 [4]。 他们展示了这些在大规模问题上相对于传统时间序列技术的性能提升。

        此外,当相邻时间序列之间存在空间依赖性时,就会出现空间时间序列问题。 时空数据出现在电网 [5]、负荷需求预测 [6]、天气预报 [7]、智慧城市应用 [8] 和交通系统(如交通流量预测 [9]、[10])的不同领域 。

        交通流量预测是智能交通系统的重要组成部分之一,也是最具挑战性的时空问题之​​一,因为它涉及到循环和非循环模式以及所涉及的物理动力学。

        交通流量预测可以帮助旅行者做出更好的决策并改善交通管理,同时减少交通拥堵和空气污染。

        最近,智能设备增加了交通流量预测问题在我们日常生活中的作用,这有助于人们规划旅行并找到最有效的路线。随着新的传感、计算和网络技术的出现,例如相机、传感器、雷达、感应回路和 GPS 设备,大量数据很容易获得 [11]。这些越来越大的数据集意味着大数据和处理这些数据的技术在未来交通系统的成功中发挥着关键作用[12]。

        因此,为了提高交通系统的性能,研究人员有动力利用新的时空数据驱动技术并设计能够处理大量数据的可扩展算法,例如深度神经网络,[1],[13]。  

1.1 背景

        从 1970 年代 Gazis 和 Knapp [14] 的原始工作开始,已经有许多研究将时间序列预测技术应用于交通流量预测问题,包括参数方法【例如自回归综合移动平均 (ARIMA) [15] 和 季节性 ARIMA [16] 】、和统计技术【例如贝叶斯分析 [17]、马尔可夫链 [18] 和贝叶斯网络 [19]】。

         然而,由于这些模型都需要先验假设,缺乏处理缺失数据、噪声数据、异常值的能力,以及维度灾难,模型存在一些限制。

        浅层架构神经网络能够处理高维数据,但无法捕获高阶计算复杂度。

        而深度神经网络在大规模问题上的卓越性能,它们成为应用于大规模多变量时间序列预测问题的替代技术。

        最近,已经有很多尝试为多变量时间序列预测问题设计深度学习模型。

        与我们相关的主要工作提出了一种堆叠式自动编码器(SAE)模型来学习交通流特征并说明 SAE 模型与多层感知器 [1] 相比的优势。在 [20] 中,他们提出了在神经网络的顶层进行多任务学习SAE。

        [21]提出了一种由多层受限波尔兹曼机组成的深度信念网络(DBN)。

        在[22]中,将四类全连接神经网络的集合应用于时间序列预测问题。

        在 [23] 中,针对时间序列预测问题提出了一种带有支持向量回归的 DBN 集合,用于聚合输出。

        然而,在完全连接的神经网络中,大小随着输入大小的增加呈指数增长,因此模型的收敛在计算上是昂贵且具有挑战性的

        卷积神经网络 (CNN) 提取各种类型输入数据的特征,例如图像、视频和音频。

        权重共享是 CNN 的主要特征,它减少了深度神经网络模型中的参数数量。这些属性通过降低参数的复杂性来提高学习算法的性能。[24]检查了深度 CNN 在多变量时间序列预测中的性能;

        在[25]中,交通流量数据的时空关系被表示为图像。 CNN 模型用于从图像进行训练并预测大型交通网络中的速度。

        在 [26] 中,他们使用卷积层和集成学习研究了空间时间序列数据的类图像表示。

        卷积层考虑欧几里得空间中的空间结构,它可能会丢失一些关于图结构数据的信息[27]。作为一种替代方法,在工作 [28] 之后,使用双向扩散卷积循环网络 [29] 捕获空间依赖性。它们说明了时间序列数据捕获时间序列之间空间关系的图形结构表示。

        此外,在存在时间数据的情况下,RNN在时间序列预测中表现出出色的性能 [30]。通过采用长短期模型(LSTM)[31] 解决了深层多层感知器和递归神经网络问题中的梯度消失问题,该模型显着改进了时间序列预测 [32]、交通速度预测 [33] 和交通流量估计[34]。  

        卷积神经网络可以在空间数据上表现出出色的性能,而递归神经网络在时间数据问题上具有优势;时空问题结合了这两者。

        在 [35] 中,他们提出了用于天气预报问题的卷积- LSTM 层,其中考虑了时空序列。

        [36]提出了一种用于多变量时间序列预测的卷积深度学习模型。他们提出了输入时间序列的显式分组和使用错误反向传播的隐式分组。

        在 [37] 中,他们对下游和上游数据使用 CNN-LSTM 模型来捕获交通流量数据之间的物理关系。卷积层之后是用于下游和上游交通流量数据的 LSTM 层。

        在 [38] 中,他们阐述了一个 CNN 和门控 CNN,然后是用于时空数据的注意力层。

         CNN-LSTM 在学习时空特征方面的能力在上面的作品中得到了说明。然而,没有任何关于设计具有各种组件的神经网络架构,来单独捕获时空模式 的分析。  

1.2 本文贡献

        在上述工作中,研究了空间时间序列预测,提出了各种类型的卷积和递归神经网络层。然而,时空数据有其特定的模式,这促使我们使用空间和时间序列分解,并在设计高效的神经网络架构时明确考虑各种类型的模式

        在设计深度神经网络架构时应考虑时空数据中的一些挑战。在时空数据中,时间序列残差不仅不是无意义的噪声,而且还是与依赖空间的时间序列的物理性质和动力系统有关。

        此外,卷积层可以捕获空间和短期模式,但在空间特征上滑动卷积核会错过一些网络结构。在存在长期模式的情况下,LSTM 层在预测问题方面表现出出色的性能,因为它可以单独捕获去趋势数据。

        此外,一个具有挑战性的问题是解决时间序列预测问题中丢失的少量时空数据

        在本文中,我们解决了在设计深度神经网络时显式分解时空模式的问题,并说明了它在大规模交通流预测问题上的性能改进

        论文的贡献描述如下:

• 我们说明了一种在空间多变量时间序列预测问题中明确考虑深度神经网络架构中各种类型模式的方法。

• 我们描述了一种基于动态时间扭曲(DTW)的聚类方法和时间序列分解,目的是找到具有相似时间序列残差的紧凑区域。

• 针对空间时间序列数据设计了多核卷积层,以保持时间序列数据的空间结构,提取短期和空间模式。它后面是一个卷积 LSTM 组件,用于从趋势中捕获长期模式,以及一个预训练的去噪自动编码器,以对缺失数据进行稳健的预测。

• 分析交通流数据中的空间和时间模式,并说明所提出的模型相对于基线和最先进的深度神经网络的性能增益,用于交通流预测、捕获有意义的时间序列残差和对缺失 数据的稳健预测。

本文的其余部分如下,在第二节中,我们定义了问题。第三节介绍了所提出模型的技术背景。在第四节中,说明了拟议的框架,随后是第五节中讨论的工作结果和结论。

2 问题定义

        时间序列数据是一串连续的测量值   是位置i在时刻t的观测值

        与此同时,位置i在每个时刻都有k个特征:

        时空数据是由n个位置点组成的多元时间序列数据,我们也可以表示为 

         给定 X 作为一个区域中所有时间序列的集合,空间时间序列预测问题被转换为回归问题。

        假设我们可以看到过去w步的时间序列(即),我们的目标是预测未来h步的时间序列(

        时间窗口w用于仅考虑一小部分以前的时间数据来预测未来数据。

         在等式(1)中,最优参数 θ* 是预测时间序列数据的最佳模型。 在神经网络中,θ* 是模型的权重,优化算法通过解决以下非凸优化问题来最小化非线性损失函数 f(., ., .),

         

 3 Preliminary

3.1 DTW

DTW 笔记: Dynamic Time Warping 动态时间规整 (&DTW的python实现)_UQI-LIUWJ的博客-CSDN博客

3.2 Fuzzy Hierarchical Clustering 模糊层次聚类

机器学习笔记: 聚类 模糊聚类与模糊层次聚类(论文笔记 Fuzzy Agglomerative Clustering :ICAISC 2015)_UQI-LIUWJ的博客-CSDN博客

3.3  卷积层

机器学习笔记:CNN卷积神经网络_UQI-LIUWJ的博客-CSDN博客

3.4 convolution-LSTM

机器学习笔记 :LSTM 变体 (conv-LSTM、Peephole LSTM、 coupled LSTM、conv-GRU)_UQI-LIUWJ的博客-CSDN博客

3.5 denoising stacked autoencoder

机器学习笔记:auto encoder_UQI-LIUWJ的博客-CSDN博客

4 方法部分

        在本节中,我们描述了针对空间时间序列预测问题提出的深度学习框架的架构。 所提出的框架如图(1)所示。 网络结构表示相邻传感器之间的距离,时空数据包括每个传感器的时间序列数据 传感器。

 

4.1 预处理部分

        如果对时间序列用时间序列分解方法,我们可以生成 X = (S, T, R) 的三个时间序列分量,分别是时间序列的季节性、趋势和残差。

         在空间时间序列数据中,残差可能不仅仅是噪声。 例如,在交通网络中,时间序列残差可能是由交通网络的交通演变引起的,它们是相邻时间序列之间有意义的模式,在第 5 节实验结果中进行了分析。

         为了将算法 (2) 应用于时间序列残差,我们考虑了集合 G ,用于地理上最近的传感器邻居。算法从集合 G 中更新两个时间序列之间的single-linkage距离。

        由于某些传感器可能影响多个区域集群,因此聚类算法的输出会发现每个传感器与其相似集群的模糊隶属关系。每个传感器 xi 都有属于某个集群 cj ∈ C的隶属度。

        我们说两个时间序列 xi 和 xj 是相似的,如果两个时间序列在某个时间偏移上具有相似的模式,或者彼此之间的距离为零。因此,对于给定的距离函数 τ (., .),(我们考虑 DTW),模糊层次聚类算法通过找到其组成元素之间距离最小的集群,来找到具有相似残差时间序列的传感器集群。

        为了表示相邻时间序列之间的短期相似性,我们在训练数据上使用滚动窗口并获得相应 DTW 距离的平均值。滚动窗口查找相邻区域的短期时间窗口之间的相似性。

        为了减少计算时间,仅当相邻时间序列之间存在高度交互时才应用滚动窗口。例如,在交通流量数据中,相邻传感器之间的交互会增加高峰时间和拥堵时间段。

        对空间时间序列应用具有上述算法 ,基于 DTW 距离找到时间序列的模糊聚类。

4.2 神经网络架构

 

        时间序列残差是第一个神经网络的输入,它已经去趋势了,表示为 (s为空间点数量,w为滑动窗口长度,k为特征维度)

        然后应用卷积组件从时间序列残差中提取模式。   对于给定的一组时间序列 X,一般卷积核在第一和第二轴上滑动。 然而,由于传感器可以具有空间结构,就像交通网络中的传感器一样,在传感器上滑动一个卷积核并不能保持网络的结构。 此外,每个传感器的时间序列残差仅依赖于网络中的小区域。 因此,我们提出了一个多核卷积层,它接收集分簇信息和残差时间序列数据。

        对于某个簇i,我们设计了一个卷积核Wi,如果时间序列j∈Ci,那么≠0.换句话说,簇i对应的卷积核Wi中可训练变量的数量为|Ci|×w×k 

        对于每一个簇,我们都可以获得一个隐藏单元(pool是池化)

        几个卷积-RELU-Pooling 层从每个邻域的时间序列残差中提取短期和空间模式(短期是因为卷积核只能看到时间窗口为w以内的部分,空间模式是分簇信息)

        第l层的输出会经过全连接层后,拼接起来(其中

        对于长期特征,我们将时间序列分解之后的趋势部分在最后一个维度上拼接到上 

        与残差不同,趋势可以代表时空数据的全局变化。 因此,我们考虑 LSTM 单元来来学习长期模式。 于是我们使用一个二维卷积 LSTM 层。  

        Conv-LSTM 接受输入,然后使用大小为(a=s,b≤v)的卷积核进行卷积操作

         最后,将季节性的部分concat 进来,然后送入全连接层。得到输出其中h是预测窗口大小

         一个挑战是当存在丢失的,或者有噪音的数据时,如何得到一个鲁棒的预测。于是我们在上面的 之后接一个auto-encoder。

 

 5 实验部分

5.1  时间序列分解

 5.2  拥堵的传递

在图 6 中,我们检查了三个观测点的速度趋势。  交通网络中的拥塞传播说明了高速公路中相邻传感器之间的关系,如图 6 所示,用于三个连续传感器的流量数据。 拥塞以近 20 分钟的延迟在此传感器上传播。

对于更大的区域,在图 7 中,13 个连续传感器的速度在图像中表示。 高峰时段的速度降低以较深的颜色呈现。 它说明速度的降低在邻近地区是相似的。

 

 5.3 模糊层次聚类

        在对时间序列数据进行预处理后,有 597 个传感器在 6 个月内拥有完整的数据。模糊聚类找到每个传感器对聚类的隶属值。在模糊隶属度矩阵中,我们考虑阈值为 0.1。所有成员值大于 0.1 的传感器都将被视为集群的成员。

        我们还设定簇的平均大小小于 10 英里。当平均值大于 10 时,聚合聚类停止。

        模糊层次聚类方法的结果有 64 个聚类,其中平均元素数为 9.7,标准差为 4.2,最小聚类大小为 3,最大聚类大小为 14。最小和最大聚类的长度分别为 0.3 英里和 32.1 英里。并且有 53 个传感器出现在一个以上的集群中,占传感器总数的近 10%。

       

 5.4 预测准确度

 

 

以上是关于论文笔记 A Spatial-Temporal Decomposition Based Deep Neural Network for TimeSeries Forecasting的主要内容,如果未能解决你的问题,请参考以下文章

论文笔记:Graph WaveNet for Deep Spatial-Temporal Graph Modeling

论文笔记:Graph WaveNet for Deep Spatial-Temporal Graph Modeling

论文笔记:GraphSleepNet: Adaptive Spatial-Temporal Graph Convolutional Networks for Sleep Stage Classific

论文笔记:Spatial-Temporal Map Vehicle Trajectory Detection Using Dynamic Mode Decomposition and Res-UNe

交通预测论文笔记《Attention Based Spatial-Temporal Graph Convolutional Networks for Traffic Flow Forecasting》

论文笔记:Unsteady Multi-Element Time Series Analysis and Prediction Based on Spatial-Temporal Attention