深入理解Seq2seq模型(Sequence2sequence)

Posted 白马负金羁

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了深入理解Seq2seq模型(Sequence2sequence)相关的知识,希望对你有一定的参考价值。

机器翻译(Machine Translation)是NLP领域中一个重点研究的话题。早期有代表性的工作包括IBM模型(1~6),这一系列方法都属于是统计机器翻译(statistical machine translation)的范畴。本博客之前的文章曾经介绍过IBM1模型(参考【1】),其它的还可以进一步参考【2】(可以注意到IBM6模型是以HMM为基础的)。

随着深度学习或者神经网络的发展,现在神经机器翻译(Neural machine translation)已经成为机器翻译领域中最流行的方法。要了解神经机器翻译,Sequence2sequence模型(简称Seq2seq)是第一步。

欢迎关注白马负金羁的博客 http://blog.csdn.net/baimafujinji ,为保证公式、图表得以正确显示,强烈建议你从该地址上查看原版博文。本博客主要关注方向包括:数字图像处理、算法设计与分析、数据结构、机器学习、数据挖掘、统计分析方法、自然语言处理。


Seq2seq模型是以RNN/LSTM/GRU这类模型为基础实现的,如果你对此还不是很了解,请参考【3】。RNN这种结构非常适合处理人类语言中的“句子”,例如【4】。在Seq2seq模型中,我们同样使用RNN来读取一个句子,然后在用一个RNN来输出一个翻译的结果,如下图所示:

以上是关于深入理解Seq2seq模型(Sequence2sequence)的主要内容,如果未能解决你的问题,请参考以下文章

循环神经网络模型,seq2seq模型理解

从零实现深度学习框架——Seq2Seq从理论到实战理论

无法理解 tf.contrib.seq2seq.TrainingHelper

seq2seq 模型中的训练和推理解码器之间共享啥?

了解 Seq2Seq 模型

pytorch做seq2seq注意力模型的翻译