深度学习的时间序列模型评价
Posted 计算机视觉研究院
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了深度学习的时间序列模型评价相关的知识,希望对你有一定的参考价值。
技术总言:
这次主要说最近发展的无监督特征学习和深入学习,其对于时间序列模型问题的评价。这些技术已经展现了希望对于建模静态数据,如计算机视觉,把它们应用到时间序列数据正在获得越来越多的关注。这次主要概述了时间序列数据存在的特殊挑战,并提供了工作的评价,其含有把时间序列应用到非监督特征学习算法或者是有选择的促成特征学习算法的变动去考虑目前时间序列数据的挑战。
当人们大脑在学习任务的时候,如语言、视觉和运动,时间是一种自然元素总是存在的。大多数真实世界的数据有一些时间成份,无论是自然过程的测量值(如天气,声波)或者人为的(股市,机器人)。时间序列数据的分析一直为积极研究的课题几十年了,被认为是由Yang和Wu作为数据挖掘的十大挑战性的问题之一,由于其独特的性质。建模连续数据的传统方法包括从假定时间序列模型参数的估计,如自回归模型和线性动力系统(LDS),和著名的隐马尔可夫模型(HMM)。估计的参数然后可以在分类器被用作特征去执行分类。然而,更复杂的,更高维的和更繁杂的真实世界的时间序列数据不能被分析的方程式描述,用方程的参数去解决,因为动力学要么太复杂或未知和传统的浅方法,只含有一个小非线性操作的数,不必精确地模拟这种复杂的数据的能力。为了更好的模型完成复杂的真实世界数据,一种方法是开发强大的功能,获取相关信息。然而,开发特有领域的特征对于每个任务是昂贵的,耗时的并且需要数据的专门知识。可供选择的方法是使用无监督特征学习,以便从未标签数据学到了一层特征表达。其有优势是因为未标签的数据多且容易获得,利用其特征从数据中学习而不是手工获知。另一个好处是特征表现这些层可以被堆叠以产生深的网络,这是更能够在数据中建模复杂结构。深层网络已在多项基准测试数据集中被用来实现国家的最先进的成果和解决困难的AI任务。然而,特征学习倍受社会各界重点关注,一直放在开发静态数据模型然而时间序列数据没有那么多关注。
时间序列数据的性质
从一个连续的采样数据点的时间序列数据,随时间实值一直在处理。有很多的时间序列数据的特性,使得它与其他类型的数据的不同。
首先,采样的时间序列数据往往包含很多噪声且具有高的维数。为了处理这一点,如降维技术、小波分析或滤波的信号处理技术可以应用于以去除一些噪声和降维。利用特征提取具有许多优点。然而,有价值的信息可能丢失,特征和信号处理技术的选择可能需要数据的专业知识。
第二是时间序列数据的特征是不能确定有可用的足够信息来了解整个过程。例如,在电子鼻数据,其中传感器阵列的各种选择性,对于许多气体的组合去识别特定的气味,但不保证该传感器的选择实际上能够识别目标的气味。在金融数据观测单一股票,这仅测量一个复杂的系统的一个很小的方面,则很可能没有足够的信息去预测未来。
此外,时间序列对时间变量有明显依赖性。在时间t给定输入值x(t),该模型预测为Y(t),但在稍后的时间相同的输入可以与不同的预测相关联。为了解决这个问题,该模型包括从过去到现在更多的数据或者必须具有的过去的输入的存储器。对于长期依赖的第一种方法可以使输入尺寸过大的模型来处理。另一个挑战是,时间依赖性的长度可能是未知的。
许多时间序列也是非静止的,这意味着该数据的特征,如平均值,方差和频率,随时间的变化的。对于一些时间序列数据,在频率的变化是如此相关,在频域比在时域这是更有利去工作的。
最后,当涉及到不变性,时间序列数据和其它类型的数据会有不同。在其他领域,例如计算机视觉,它最重要的是要有特征,不变的平移,旋转,和比例。时间序列大多数特征需要是不变平移。
总之时间序列数据是高维和复杂的具有独特性质的,它们的分析和建模具有挑战性。有很大兴趣在时间序列数据表达,为了将维且提取相关的信息。关键对于任何成功的应用在于选择正确的表示。各种时序问题包含了不同程度的性质,在本节和先验知识或假设有关这些性质的讨论,经常被注入在所选择的模型或特征表达。非标签数据学习表达代替手工设置特征越来越感兴趣。无监督特征学习已经证明是成功的,在学习的特征表现层的静态数据集,且可与深度网络相结合去创造更强大的学习模型。但是,特征学习的时间序列数据必须去修改,为了调整时间序列数据的特征,为了捕捉时间信息。
非监督学习和深度学习
接下来主要介绍用于无监督特征学习模型和技术,用于建模时间关系。从未标签数据学习特征的优点是大量未标签的数据可以被利用,但比手工设定的特征可能有更好的特征可以学到。这两个优点减少了需要数据的专门知识。
受限玻尔兹曼机
受限波尔兹曼机(RBM)是一个概率模型,它输入单元(可见)x和隐藏单元(隐藏)h如图1所示。
图1 静态数据的2层RBM
可见和隐藏单元与一个权重矩阵相连,W和有偏置向量分别为C和B。可见的和隐藏单位之间没有联系。RBM可用于模拟静态数据。能量函数和联合分布对于给定的可见和隐藏向量定义为:
其中Z是分区功能,确保了分布是归一化的。对于二进制可见和隐藏单元,隐藏的单元被激活给出可见向量x的概率,可视单元被激活给出隐藏向量h的概率,由下式给出:
其中σ(·)是所有训练样本的均值。几个RBMs可以堆叠产生一个深度信念网络(DBM)。在一个深度网络里,在第一层隐藏单元的激活是第二层的输入。
条件RNM
RBM模型的多元时间序列数据的扩展是条件RBM(cRBM),如图2所示。一个类似的模式是时间RBM。
图2 两层条件RBM的时间序列数据,用于第一和第二层的模型顺序分别是3和2
该cRBM由自回归权重组成,该模型的短期时间结构,和以往可见单元到当前隐含单元之间的连接。cRBM的偏置向量取决于先前可见单元且被定义为:
其中Ai是在时间t-i的可见单元和目前可见单元之间的自回归连接,Bi是权重矩阵连接可视层在时间t-i到目前的隐藏层。模型顺序由常数n定义。对于上升或下降一层的概率是:
系数θ={W,b,c,A,B},用对比的分歧进行培训。就像RBM,所述的cRBM也可以作为一个模块来创建深度网络。
自动编码
不具有一个配分函数的模型是自动编码,参见图3。自动编码首次引入作为一个降维算法。事实上,一个基本的线性自编码实质上学习相同的表示作为主成分分析(PCA)。可见单元的各层x,隐单元h和重建的可见单元,通过连接权重矩阵W1和W2,隐含层和重建层分别具有偏置矢量b1和b2。它是常见的自动编码器去并列权重,即W2=(W1)T。这工作可以作为一个调整装置,因为它限制了允许的参数空间并降低了参数的数目去学习。前馈激活计算公式为:
其中σ(·)是激活函数。由于RBM,一个常见的选择是逻辑激活函数。最优值(the cost function)被最小化表示为:
图3 静态时间序列输入的一个一层的自动编码器。输入是当前和之前可视数据x框架的连接。x的重建表示为^X。
递归神经网络
一个模型已用于建模顺序数据的是递推神经网络(RNN)。通常一个RNN从前馈网络通过连接的神经元的输出到其输入端获得的,参见图4。短期内时间相关性由隐藏到隐藏连接建模,而无需使用任何时间延迟。它们经常迭代训练,并通过被称为反向传播通时间(BPTT)的过程。当时间展开时RNNs可以被看作是非常深的网络,其在每一层共享参数。这导致梯度的消失的问题,并已促使二阶方法的深体系和非监督预训练的探索。对训练RNNs策略概述由Sutskever提供。一个著名的拓展是使用特制的长短期记忆细胞,其能更好地发现长期相关性。
图4 递推神经网络(RNN)。输入x被变换到输出表示y,其通过隐单位h。隐单元连接当前时间帧的输入值和隐单元从先前时间帧。
深度学习
这个所介绍的隐单元是使用非线性激活函数。这种非线性使得一个更富有表现的模型能够学习更抽象的表示,当多个模块被堆叠在彼此的顶部以形成深度网络(如果线性特征被堆叠的结果仍然是一个线性操作)。深度网络的目标是在较低层构建特征,其将会区分开输入数据变化的因素,然后组合这些表示在更高层。已提出了一个深度网络将概括的很好,因为它具有更完整的表达。然而,当误差信号反向传播时,在梯度消失的问题中随着训练隐单元的多个层会很困难。这可以通过在每一层执行无监督贪婪逐层预训练来解决。这作为正规化的一个不寻常的形式,避免了较差的局部最小值并给出比随机初始化一个更好的初始化。然而,与其他因素相比参数初始化的重要性是不一至关重要的,例如输入连接和结构。
卷积和池化
这种技术是特别有趣的高维数据,比如图像和时间序列数据,其就是是卷积。在一个卷积设置中,隐单元不完全连接到输入而是分为互补局部连接的段,见图5。卷积已应用于RBMs和自动编码器去创建卷积RBMs(convRBM)和卷积自动编码器(convAE)。时延神经网络(TDNN)是人工神经网络(ANN)的一个特例,通过对重叠窗口进行卷积利用输入的时间结构。
图5 两层的卷积神经网络
一个常用的操作是与卷积一起使用,它通过一个最大、平均或直方图的操作结合输入或特征空间附近的值,其就是池化。池的目的是实现小局部变形的不变性,并减少了特征空间的维数。Lee等人的工作引入了概率最大-池化在卷积RBMS的上下文中。时空DBN(ST-DBN)使用卷积RBMs与空间池化层和时域池化层一起从时空数据建立不变性特征。
时间相干性
有很多其他方法除了体系结构,其可用于捕获数据中的时间相干性。一种方法是引入一个平滑惩罚在正规化的隐变量。这是通过最小化的变化的隐藏单元从一个帧到下一帧激活通过如下完成:
这背后的动机是连续数据的隐单元激活不应有太大变化,如果时间相关性数据按时间顺序被反馈到该模型。其他策略包括惩罚的平方差,慢速特征分析,或作为其他因素的函数,例如在输入数据中的变化,以便适应慢速和快速变化的输入数据。
时间相干性是关系到不变性特征的表示,因为这两种方法要实现在输入数据中特征表达的微小变化。因此建议在,其姿势参数和仿射变换应被建模,而不是使用不变性特征表示。在这种情况下,时间相干性应超过一些组,如位置和姿势的目标,而不是单一的标量。这例子可以用结构稀疏性惩罚来实现。
小结一下
表1给出了简要介绍模型的总结。第一列表示模型是否能够捕捉时序关系。一个模型捕捉时序关系由具过去输入的内存完成。一个模型的内存,在第二列中指示,意味着在当前帧上有多少步及时回到输入。没有时序次序,特征序列的任何排列会产生相同的分布。一个存储器的实现在模型之间执行不同。在一个cRBM,延迟被用于创建关于过去可见单元的短期相关性。长期相关性来自模拟后续层。这意味着对于一个cRBM存储器的长度增加对于每个添加层。在一层cRBM模型次序中通常低于5个输入大小的大约50左右。在输入尺寸减小将允许更高模型次序。在一个RNN中,隐单元在当前时间帧受到在先前时间帧隐单元状态的影响。这可以创建带有潜在的无限时间帧的持续时间的连锁反应。另一方面,这种连锁反应可以通过用忘记门避免。利用长短期记忆或hessian-free优化可以产生递推网络,其拥有超过100个时间步骤的记忆。门控RBM和卷积GRBM模型在一对驶入向量之间转换,所以这些模型的内存为2。时空DBN 模型6个输出序列来自空间池化层,对于GRBM这是一个较长内存,但使用了一个较低的输入大小。
在表1中的最后一列表示假如模型生成(相对于判别)。一个生成模型可以产生观测数据给予一个隐藏表示,并且这能力主要是用于产生未来的时间步长的合成数据。尽管自动编码器没有生成,一个概率的解释可以使用自动编码器的得分生成。
表1 常用模型的特征学习的总结
经典时间序列问题
在这我们将重点介绍一些常见的时间序列问题和模型,并已解决他们在文献中给出。我们将专注于复杂问题,对于特征表达需要用隐变量,其中表示完全或部分从未标签的数据学习。那会在本节呈现经典的时间序列问题,总结如表2。
表2 常用时间序列问题的总结
举个小例子:视频
视频数据是随着时间推移的图像系列(时空数据),并可以因此被看作是高维的时序数据。如图6表示从KTH行为识别数据集的图像序列。传统的方法是模拟视频流,是将用共同的特征检测每一个个体的静态图像和检测有趣的点,如SIFT 或HOG 。这些特征是特定域的静态图像,并且不容易扩展到其他领域,例如视频。
图6 四个图像从100、105、110和115帧上运行的人的KTH动作识别数据集。KTH数据集还包含走路、慢跑、打拳、挥手和热烈鼓掌的视频。
采取Stavens和特龙的方法学习自己的领域优化特征,而不是用预先定义的特征,但仍来自静态图像。更好的方法是去模拟视频,去学习图像的转换而不是用静态图像工作。GRBM已被用于这一目的,其中输入x,GRBM在一个时间帧是完整的图像,且输出y是随后时间帧中的完整图像。然而,由于网络是全连接到图像,该方法不能很好地扩展到更大的图像,并在多个位置的局部变换必须重新学习。
利用概率最大池化的GRBM的卷积版本被泰勒等人提出。利用卷积减少参数的学习数量,允许更大的输入规模,更好地处理可能出现在图像中的任何地方的局部仿射变换。该模型是对合成数据和多个基准数据集的验证,包括KTH行为识别数据集。
Le等人的工作提出使用独立子空间分析(ISA)的扩展,无监督的时空特征学习方法。该扩展包括分层(叠)卷积ISA模块连同池化一起。ISA的缺点是它不能很好地扩展到大规模的输入。卷积和堆叠解决了这个问题,是通过学习输入数据的较小块。该方法的若干基准组包括KTH被验证。该方法的一个优点是,ISA的使用减少了在RBM为基础的方法的调整,例如学习率,权重衰减,收敛参数等。
模拟视频中的时间关系也已经用时间池化完成。Chen和Freitas的工作采用卷积RBMs作为空间池的块,然后在空间池化单元执行空间池化。该方法被称为时空深度信念网络(ST-DBN)。STDBN允许在空间和时间的不变性和统计独立性。相比于标准卷积DBN的方法来实现上述应用,如动作识别和视频降噪性能都很优越。
对于模拟视频时间相干性的使用是由Zou等人完成的,其中自动编码器上的池化单元的时间差L1-coast是用来学习特征的,其改善了静止图像的目标识别。对于学习表达,Hyvärinende的工作也用时间信息为准则。
深度学习的采用,特征学习和用池化卷积,已经推动了视频处理的进展。模拟视频数据流是一个自然延续对于深度学习算法,因为它们已被证明是成功的,在静态图像中构建有用的特征。在视频中通过重点学习时间特征,在静态图像上的性能可以提高,从而激发了需要继续发展深度学习的算法,去捕捉时间关系。早期的尝试在延伸深度学习算法,视频数据通过模拟两帧之间的转换完成的。时间池化的使用扩展了时间相关性,模型可以学习超过一单独帧的转换。但是,时间相关性已被建模,其仍然只是几帧。对于视频处理的一个可能的未来发展方向是看模型可以学习更长的时间相关性。
再来一个小例子:股市预测
股票市场数据是高度复杂和难以预料的,即使对于人类专家,由于一些外部因素,例如,政治、全球经济和交易商期望。在股票市场数据的趋势倾向于非线性、不确定的和非平稳的。图7显示了超过十年的Dow Jones工业平均指数(DJOI)。
图7 十年的Dow Jones工业平均指数(DJOI)
根据有效市场假说(EMH),股票市场价格遵循随机游走模式,这意味着一个股有相同的概率去上升,因为它已往下降,导致该预测不能有超过50个%的精度。EMH状态的股价是由“新闻”推动,而不是现在和过去的价格。然而它也被认为股票市场的价格遵循随机游走且它们可以预测。比起十年前,现金获取新闻和股票信息看起来是非常不同的。有一个例子,它已经显示如果从在线社交媒体,如Twitter feed和在线聊天活动中提取进一步信息预测可以被改善。
一种模型已经出现并证明是适合股市预测的一个模型就是人工神经网络(ANN)。这是因为它能够处理非线性复杂系统的能力。ANNs的调查适用于股市预测在给出。然而,ANN的大多数方法应用于股票预测给出了不理想的结果。神经网络的反馈也试被试用过,例如TDNN的递归版本,具有RNN的小波变换,反馈状态网络。许多这些方法都是直接对原始数据应用,而其他报纸更注重特征选择的步骤。
总之,可以断定仍有改进的空间用于安全和精确的库存预测系统的现有技术。如果从影响股市来源的额外信息看,它可以被测量和获取,如社交媒体广大市民的意见,成交量,市场特定领域的知识以及政治和经济因素,它可以与股价数据结合在一起,实现更高的股票价格的预测。应用小范围的成功,一层神经网络的股市预测,并认识到有必要增加更多的信息去做出更好的预测,表明对于股市预测的未来发展方向是采用组合数据的,对于更强大的模型能够处理复杂的,高维数据。深度学习方法的多元时间序列符合这一描述,并为金融领域提供了新的兴趣方法,对于深度学习共同体的新的挑战是笔者的知识还没有被尝试法。
大总结
无监督特征学习和深度学习技术已成功应用于多种领域中。而在深学习和无监督特征学习的已经注重在计算机视觉领域,本次分享回顾了一些深度学习方法对时间序列域的成功应用。其中一些方法已处理输入作为静态数据,但最成功的是那些已经修改了的深度学习模型去更好地处理时间序列数据。
处理时间序列数据作为静态输入的问题是重要的时间不被捕获。建模时间序列面临许多作为建模静态数据一样的挑战,如用高维观测和变量之间非线性关系的对应,通过简单忽略时间和应用静态数据的模式,到时间序列之一忽略许多丰富结构中存在的数据。当采用这种方法,当前输入帧的上下文丢失,且唯一时间的相关性被捕获是在输入规模之内。为了捕捉长期相关性,输入规模已被增加,这可以是不切实际的多元信号或如果数据具有非常长期相关性。解决方案是使用一个模型,结合时间相干性,执行时域池化,或隐单位激活的模型序列。
模型的选择和数据应该如何被呈现模型高度依赖于数据的类型。选择模型之内,有附加的设计选择就连接、结构和超参数而言。对于这些原因,尽管许多无监督特征学习模型对于当前域提供去减轻想出有用特征的用户,对于应用它们到时间序列数据仍有诸多挑战。还值得一提的是,许多工作是从输入数据构建一个有用特征,事实还是从预处理特征使用输入数据。
深度学习方法提供更好的表达性和分类在众多的时间序列问题相比于比较浅的方法,当设置和适当训练的时候。仍有余地,特别是改善学习算法对于时间序列数据,例如在执行信号选择,在多变量输入数据中处理荣誉信号。
另一种可能的未来发展方向是发展模型,在学习或使用模型平均改变其内部结构,为了捕捉短期和长期的时间相关性。在这方面还需要进一步研究,去发展时间序列建模算法,学习更好的特征和更容易更快的训练模型。因此,需要较少关注先前处理流水线对于特定的时间序列的问题,更注重学习更好特征表达对于一个通用的算法,且对于其结构化数据不管该应用程序。
以上是关于深度学习的时间序列模型评价的主要内容,如果未能解决你的问题,请参考以下文章