论文解读-Long Short-Term Memory as a Dynamically Computed Element-wise Weighted Sum

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了论文解读-Long Short-Term Memory as a Dynamically Computed Element-wise Weighted Sum相关的知识,希望对你有一定的参考价值。

参考技术A 这是一篇自己以前看到的觉得挺有意思的文章。论文是 ACL 2018年上的一篇短文。
论文分析了LSTM里面哪些部件是比较重要的。发现LSTM里面的加性循环操作可以看成是一种类似attention的加权操作,这是LSTM最重要的部分。作者通过解耦LSTM的门控单元验证了这一点。
普通的RNN为下面 (1) 式,这里我们把它简写为S-RNN (simple-rnn):

LSTM为了解决它的梯度消失问题,和由此引起的无法学习到长时依赖的问题。加入了门机制,且引入记忆单元 存储长期记忆。
LSTM可以看成是在普通的RNN上加入了3个门:输入,输出,遗忘门。

在这里可以理解为普通的RNN, , , 分别为输入,遗忘,输出门。记忆单元 根据i控制记忆多少当前信息ct~,遗忘多少过去信息 ,得到的信息是长期的(相对于普通RNN )。
如果把 (5) 式展开,就有下面的式子。可以看到记忆单元 可以看成前面t个时刻的普通RNN的结果和一个门控 的element-wise乘积的和。(简洁优美🙂

消解实验:
在LSTM基础上消解。
1)– S-RNN: 把(2)换成了普通线性函数 ,相当于去掉普通RNN。
2)– S-RNN - OUT: 在(1)基础上还去掉了输出门 。
3)– S-RNN - HIDDEN: 在(1)基础上,去掉所有门里的隐层单元 (计算时不含 ,这时模型只剩 处的循环)。
4)– GATES: 去掉所有门,这时没有 处循环,也没有 处循环,可以看成一个普通RNN。

其中,通过2)的简化 也可以写成一个简洁的式子:

实验结果如下:

3.依存解析:

可以看出,gate是最重要的,没有门就没有了 和门里的 两种循环。而门中去掉h,效果会下降但影响不大,说明h这个乘性循环连接并不是特别重要,相反, 中的加性循环连接很重要。
升华:和attention的联系。公式(8)的加权和可以看成一种时间维度上的 attention, 这样就把LSTM和attention联系起来了。两者不同点在于:1)LSTM中attention的权重是个vector且是element-wise运算. 2)LSTM复杂度线性而非attention中quadratic。3) LSTM中attention权重是通过 和 之间的计算得到的0~1之间的值,离当前时刻越远,值贡献越小,离越近,值贡献越大,而非普通attention中全局的归一化。
缺点:直接读文章会觉得消解实验对比稍奇怪。

以上是个人理解,不当之处欢迎批评指正。

论文笔记:Modeling Long- and Short-Term Temporal Patterns with Deep Neural Networks

SIGIR 2018

使用CNN和RNN进行时间序列预测

1 整体模型部分

输入,预测未来的h个时间片的信息

2 卷积组件

  •  由k个宽度维w,高度为n的卷积核作为filter

  • 提取时间维度上的短期模式以及变量之间的局部依赖关系

3 RNN组件

使用GRU,对卷积的输出进行学习,提取时序特征

4 递归-跳过层

  •  传统的GRU难以捕捉长期模式,论文涉及了递归-跳过层,通过间隔采样的方式,在采样序列长度不变的情况下,回看更长的时间,以此来捕获长期特征。
    • 将GRU的t-1替换成t-p

5 全连接层

  • 通过一个全连接层将递归组件和递归-跳过组件的输出组合起来
  • 全连接层的输入包括:时间戳t的递归组件的输出、递归-跳过组件从时间戳t-p+1到t的p个隐藏状态

6 时间注意力层

  • 递归-跳过层需要一个预定义的超参数 p
    • 当时间序列没有周期性/周期长度随时间变化时,会影响模型的效果
  • 为了解决这个问题,论文提出了用注意力机制替换递归-跳过层
    • 当前时间戳t处的注意力权重 的计算方式是:

       

      • 是GRU隐藏特征向量的拼接
  • 时间注意力层的输出是
  • 此时全连接层的计算方式变为:

     

 7 自回归组件

  •  由于卷积组件和递归组件的非线性性质,神经网络模型的一个主要缺点是对于局部的极端变化不敏感(左图这个样子)
  • 解决方法是将LSTNet的最终预测分解为一个线性部分和一个非线性部分,其中线性部分主要关注局部变化,而非线性部分关注全局模式
    • 线性部分:

     

  • LSTNet的最终预测:

 

 

以上是关于论文解读-Long Short-Term Memory as a Dynamically Computed Element-wise Weighted Sum的主要内容,如果未能解决你的问题,请参考以下文章

NLP 的LSTM长短期记忆 5 NLP 零到英雄 Long Short-Term Memory for NLP

PyTorch笔记 - LSTM(Long Short-Term Memory) 和 LSTMP(Projection)

ATORI : Efficient and Fair Resource Partitioning by Sacrificing Short-Term Benefits for Long-Term

ATORI : Efficient and Fair Resource Partitioning by Sacrificing Short-Term Benefits for Long-Term

ATORI : Efficient and Fair Resource Partitioning by Sacrificing Short-Term Benefits for Long-Term

RNN,LSTM,SRNN,Long Short-Term Memory as a Dynamically Computed Element-wise Weighted Sum