论文笔记：FEDformer: Frequency Enhanced Decomposed Transformer for Long-term Series Forecasting

Posted 2023-03-07 UQI-LIUWJ

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了论文笔记：FEDformer: Frequency Enhanced Decomposed Transformer for Long-term Series Forecasting相关的知识，希望对你有一定的参考价值。

2022 ICML

1 Intro

长时间序列问题是一个研究很广泛的问题
- RNN以及变体会遇到梯度消失/梯度爆炸，这会在很大程度上限制他们的表现
- Transformer的方法会导致很高的计算复杂度，以及很大的内存消耗，这也会使得在长时间序列上使用Transformer很吃力
  - 近来有方法优化Transformer，使其计算复杂度降低
  - 但他们大多的思路是少取一些QK 对，这就可能导致信息的丢失，进而影响预测的精准度有
与此同时，使用Transformer的方法，会在一定程度上难以捕获时间序列的整体特征/分布
- 比如上图，不难发现预测的结果和实际值，二者的分布有着一定的差距
- 这可能由于Transformer使用的是point-wise attention，每个时间点是独立的进行注意力计算和预测的，所以整体的、全局的特征难以维系和建模
这篇论文提出了FedTransformer
- 在Transformer的架构种使用周期-趋势分解（这一点有点类似AutoFormer）
- 在谱域中使用Transformer
  - ——>使得Transformer能更好地捕获全局特征
  - ——>在不减少每个点计算attention时看到的其他点数量的基础上，减少复杂度

这篇论文的一个重要的问题是，经过离散傅里叶变化后，哪些部分应该得以保留，以表征时间序列
- 一种方式是保留低频部分，去除高频部分（低频信号表示近似信息，高频信号表示细节信息）
  - ——>这样的话，有一些诸如趋势变化的信息就会被丢失（这是一个高频信号）
- 另一种方式是全部保留，但是这样的话。很多噪声是高频信号，这会扰乱预测结果
论文通过理论分析，说明从各种频率成分中随机选取一个子集，会得到一个好的时间序列表征
- 假设我们有m个时间序列
- 通过傅里叶变化，我们可以将Xi(t)转化成
- 将所有时间序列进行转化，我们得到转化矩阵
- 从d个谱域成分中随机选取s个(s<d)，论文通过理论证明可以保留大部分A的信息

encoder的输入是I*D（I表示输入的长度，D表示hidden state）

decoder的输入是(I/2+O)*D

【和autoformer的是一样的】

和autoformer类似，S是seasonality，trend是趋势

也是encoder逐步把trend剥离掉；decoder再逐步把trend加回来

DFT将N长的时域sequence转变成N长的谱域sequence
- 其中每个谱域元素的计算方式为
- 计算每个谱域元素是一个O(N)的复杂度，那么计算N长的谱域sequence，复杂度是O(n^2)
FFT可以将复杂度降至O(nlogn)
- 每个谱域元素还是O(n)的计算复杂度，但是一半的元素两两对称，利用分治的思路，就是计算O(logn)个谱域元素
这里作者是随机选s个谱域元素（s<<n)，每个元素是O(n)的计算复杂度
- ——>这里DFT的时间复杂度是O(n)

架构是一样的，也都是encoder逐步把趋势项剥离，decoder逐步把趋势项加回来
尽管AutoFormer中也使用了傅里叶变化，但那时为了加快AutoCorrelation（那篇论文对于self-attention的替代结构）的计算，所以严格意义上讲AutoFormer还是时域上的attention；FedFormer则是谱域上的attention

以上是关于论文笔记：FEDformer: Frequency Enhanced Decomposed Transformer for Long-term Series Forecasting的主要内容，如果未能解决你的问题，请参考以下文章