针对机器翻译,提出 RNN encoder-decoder.
encoder与decoder是两个RNN,它们放在一起进行参数学习,最大化条件似然函数。
网络结构:
注意输入语句与输出语句长度不一定相同。
在encoder端,t时刻的隐藏状态h表示为 t-1时刻的h 以及t时刻的输入x的函数,直到输入走完,最后一个hidden state h认为是这个句子的一个summary,记为上下文c。
在decoder端,t时刻的隐藏状态h表示为 t-1时刻的h,t-1时刻的预测输出y以及输入的上下文c的函数
优化目标:
关于h的计算:
t时刻的h表示为t-1时刻 h的函数,其中又有 reset gate和 update gate来控制长短时的记忆效果
reset gate与 update gate:
看得出来r与z每个元素的计算都是由一个sigmoid函数输出,控制在0-1之间。