论文笔记-Learning Phrase Representations using RNN Encoder–Decoder for Statistical Machine Translation(示

针对机器翻译，提出 RNN encoder-decoder.

encoder与decoder是两个RNN，它们放在一起进行参数学习，最大化条件似然函数。

网络结构：

技术分享图片

注意输入语句与输出语句长度不一定相同。

在encoder端，t时刻的隐藏状态h表示为 t-1时刻的h 以及t时刻的输入x的函数，直到输入走完，最后一个hidden state h认为是这个句子的一个summary，记为上下文c。

技术分享图片

在decoder端，t时刻的隐藏状态h表示为 t-1时刻的h，t-1时刻的预测输出y以及输入的上下文c的函数

技术分享图片

优化目标：

技术分享图片

关于h的计算：

t时刻的h表示为t-1时刻 h的函数，其中又有 reset gate和 update gate来控制长短时的记忆效果

技术分享图片

reset gate与 update gate：

技术分享图片

看得出来r与z每个元素的计算都是由一个sigmoid函数输出，控制在0-1之间。