论文笔记:Hankel Matrix Factorization for Tagged Time Series to Recover Missing Values during Blackouts

Posted UQI-LIUWJ

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了论文笔记:Hankel Matrix Factorization for Tagged Time Series to Recover Missing Values during Blackouts相关的知识,希望对你有一定的参考价值。

ICDE 2019

0 摘要

        在执行时间序列分析时,恢复时间序列中的缺失值至关重要。而本文研究的blackouts问题,即在一定时期内丢失所有数据,是最紧迫和最具挑战性的问题之一。现有的时间序列缺失值恢复方法无法正确处理这个问题,但在这项工作中,我们提出了一种基于 Hankel 矩阵分解的标记时间序列方法,称为 HKMF-T,遵循将数据序列分解为平稳趋势和外部影响成分。通过将数据序列转换为其 Hankel 矩阵形式,HKMF-T 将高阶时间相关性隐含的平滑趋势建模为两个低秩矩阵的乘积,并学习相应标签序列指示的外部影响。通过对三个真实世界数据集进行的广泛实验,HKMF-T 在持续时间超过九个采样间隔的blackouts 数据中优于所有基线方法,从而显示了其有效性。

1 introduction

        恢复时间序列中缺失值的问题最近在数据挖掘和工程界受到越来越多的研究关注[1],[2]。由于各种时间序列分析 (TSA) 算法所需要的数据完整性假设与现实世界系统中不可避免的数据丢失的现实之间的不匹配,这个问题至关重要[1]。

        简而言之,缺失值恢复的任务可以描述为:给定一个长度为 T 的数据序列, ,其中是在时间 t 收集的 d 维数据向量,X中有一定缺失值,根据观察到的部分和关于 X 的额外知识来估计 X 中的缺失部分。

        虽然许多现有工作研究了随机缺失模式下的问题 [2],但本文关注的是当所有一个时期的d维数据,例如t1到t2的数据(xt∈[t1,t2]),全部丢失的情况。

         在blackout期间恢复缺失值具有挑战性,因为在blackout期间没有任何其他可用序列供参考。 因此,依赖于多个协同进化序列 [1]-[3] 之间的空间和时间相关性的现有工作在这种情况下受到限制。

        为了解决这个问题,这项工作提出了 HKMF-T 方法(HanKel Matrix Factorization for Tagged time series)。其基本思想是将一个序列分解为平滑趋势和外部影响分量后者由与数据序列关联的标签序列表示。给定标记的数据序列,HKMF-T 学习上述两个组件并在新的 Hankel 矩阵分解框架下估计缺失值。作为一项试点研究,我们主要集中讨论一维序列,因为它们形式简单,每个缺失值都代表一个blackouts的情况。

        总之,本文做出以下贡献:

• 我们提出了blackouts期间时间序列的缺失值恢复问题,并提出了一种新颖的基于矩阵分解(MF)的解决方案;

• 我们设计了Hankelization 过程,使基于MF 的方法能够通过学习序列数据之间的高阶时间相关性来处理blackouts

• 我们通过使用三个真实世界数据集将其性能与现有方法进行比较来展示 HKMF-T 的有效性。

 2 问题定义

长为T的时间序列,其中s是时刻t的d维列向量

一个指示矩阵 表示xt的第i维有数值(0表示数值丢失)

相应的标签序列表示对xt的标签 

我们的目标是估计X中的缺失值

本文研究的blackouts问题对应于 X 的整列整列缺失的情况

3 HKMF-T

3.1 汉克尔矩阵化 Hankelization

        线性代数笔记:汉克尔矩阵(Hankel matrix)_UQI-LIUWJ的博客-CSDN博客

        HKMF-T 的第一步是汉克尔矩阵化过程。 在这项工作中,我们专注于探索值之间的时间相关性,这是时间序列的内在本质。

        我们建议通过 Hankelization 技术促进基于 MF 框架的时间相关性的学习。

        更具体地说,对于一维序列,汉克尔化过程将原始序列转化为汉克尔矩阵,如图1(a)所示。通过指定p≥lb+1,lb是X中blackouts的持续时间,我们在外观上消除了所产生的p阶汉克尔矩阵中的blackouts,并使其有可能在Hp(X)而不是X上应用基于MF的方法。

        

 3.2 汉克尔矩阵分解

        HKMF-T 的下一步是执行 Hankel 矩阵分解。 基于将序列分解为平滑趋势和外部影响分量的思想,我们的方法通过让 来逼近 Hp(X),其中是两个低秩矩阵 (r ≤ p),分别代表潜在和时间嵌入。 它们的乘积 UV 对应于平滑趋势分量,包含与标签相关的外部影响。

        HKMF-T 的本质在于,Hp(X) 的每一列包含 X 中的 p 个连续元素,这些元素通过线性变换 U 与时间嵌入 V 的同一状态(列)相关联【下图中不同颜色的U中框乘以相同的V中黑色框】。而这种共享的时间状态反映了 X 中元素之间的高阶时间相关性。  

         

         为了解U,V和E,我们提出了如下的目标函数

 

 我们的求解任务可以写成:

 当 我们求得 最优的U,V,E之后,我们可以通过平均相应的UV+E中的元素来进行补全

 

 

 3.3 使用SGD计算结果

        论文中使用SGD来求解U,V,E

 

 其中

 论文中设置学习率η=0.01

 4 实验

4.1 数据集

实验使用了三个真实世界的数据集:

1)自行车共享数据集(BSD)[4]:包含731 天出租自行车的数量和相应的天气信息,分别用作观察和标签序列;

2)机动车碰撞数据集(MVCD):我们计算每天的碰撞次数得到一个包含1096个值的观测序列,以每天的天气状况作为标签序列;

3)电力消耗数据集(EPCD):通过汇总每天每分钟的电力消耗,我们得到一个由1094条记录组成的观察序列,因为除了电力消耗和日期之外没有额外的信息,我们简单地使用从日期获得的星期几作为标签。

此外,为了解决我们基于 Matlab 的算法实现中浮点数精度引起的问题,我们使用 min-max 归一化将上述数据集中的所有值归一化为 [0, 10] 范围内。

4.2 实验方法

 4.2.1 评估方法

         给定blackouts 的持续时间lb和原始序列 X,我们迭代地留下一段 作为缺失,以模拟从时间 t 开始且长度为 lb 的blackouts。对于每个段, 估计值 的均方根误差 (RMSE) 计算如下。

        

        其中分别是中的第i个元素

        然后通过 RMSE 的总和来量化整体性能,该总和是通过聚合具有 t = 1,...,T - lb + 1 的所有段的 RMSE(t, lb) 来计算的。

4.2.2 baseline

为了证明 HKMF-T 的有效性,我们将其性能与以下基线方法进行比较:

1)DynaMMo [1];

2)线性插值;

3) HKMF w/o. T,代表没有标签信息的基于汉克尔矩阵的分解。

虽然这些方法没有考虑标签序列提供的外部影响信息,但我们设计了以下两种简单的算法进行比较研究:

4)MA 标签,使用 10 天移动平均线 MA(10) 计算平滑趋势分量,并学习 通过平均观察值和 MA(10) 之间的差距来评估标签的影响。blackouts期间的缺失值是使用 MA(10) 的线性插值加上给定标签的平均影响值来估计的;

5)TagMean,简单地通过从序列的观察部分计算出的其标签的平均值来估计缺失值。

4.3 实验结果

        在本节中,我们使用 RMSE 之和评估 HKMF-T 的整体有效性,并与基线方法进行比较研究。 

         blackouts的持续时间 lb 设置为 1 到 20,以详细了解不同方法在不同  blackouts规模下的性能。

        我们根据经验将 λS、λO 和 λE 分别设置为 0.1、0.001 和 0.1,对于 lb ≥ 2,p = lb + 1,对于 lb = 1,p = 3。

        矩阵 U 和 V 的秩 r 设置为 r = p。

  

图 2 绘制了不同 lb 下不同方法的 RMSE 之和。

从图中可以看出,当 lb 很短,即 lb ≤ 2 时,包括 DynaMMo、MA Tag 和 Linear Interpolation 在内的方法强烈反映了时间时间序列的连续性 [1],实现了比提出的 HKMF-T 方法更好的性能。

当blockouts持续时间增加时,HKMF-T 开始显示其优势。更具体地说,对于 BSD、MVCD 和 EPCD 数据集,当 lb ≥ 7、lb ≥ 9 和 lb ≥ 4 时,它分别优于所有其他方法。

         总之,当所有三个数据集的 lb ≥ 9 时,提出的 HKMF-T 方法优于所有基线方法,表明它在处理blockouts方面的有效性。

5 总结

本文提出了一种新的基于 MF 的方法,称为 HKMF-T,通过将数据序列分解为平滑趋势和外部影响分量来解决在blockouts期间估计缺失值的挑战性问题。 遵循这个想法,所提出的方法首先将一维数据序列转换为汉克尔矩阵,然后通过两个低秩矩阵加上外部影响的乘积来近似。 通过对三个真实世界数据集进行的广泛实验,我们通过将其性能与最先进的基线方法进行比较来证明 HKMF-T 的有效性。

对于我们未来的工作,我们计划:1)扩展 HKMF-T 以处理高维数据和标签序列,以及 2)扩展标签序列的影响模型,以包括每个事件对数据有长期影响的情况 顺序。

以上是关于论文笔记:Hankel Matrix Factorization for Tagged Time Series to Recover Missing Values during Blackouts的主要内容,如果未能解决你的问题,请参考以下文章

线性代数笔记:汉克尔矩阵(Hankel matrix)

论文笔记Matrix Capsule with EM Routing

论文笔记:Matrix Completion in the Unit Hypercube via Structured Matrix Factorization

论文辅助笔记(代码实现):Bayesian Probabilistic Matrix Factorizationusing Markov Chain Monte Carlo

论文笔记:A survey of deep nonnegative matrix factorization

论文笔记­­:Sparse Matrix Format Selection with Multiclass SVM for SpMV on GPU