看图说话——CNN和LSTM的联合应用

Posted 2022-12-06 张雨石

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了看图说话——CNN和LSTM的联合应用相关的知识，希望对你有一定的参考价值。

看图说话是深度学习波及的领域之一。其基本思想是利用卷积神经网络来做图像的特征提取，利用LSTM来生成描述。但这算是深度学习中热门的两大模型为数不多的联合应用了。

本文是参考文献[1]的笔记，论文是比较早的论文，15年就已经发表了，不新。但还是想写下来它的细节以备后用。

关于CNN(卷积神经网络)和LSTM(长短期记忆网络)的细节，本文不再赘述其细节。读者们需要了解的是：

卷积神经网络是一种特别有效的提取图像特征的手段。一个在大数据集如ImageNet上预训练好的模型能够非常有效的提取图像的特征。
长短期记忆网络能够处理长短不一的序列式数据，比如语言句子。给定一个输入，网络能够给出一个序列输出。

背景

在参考论文提出的模型之前，对于看图说话这个问题，解决方法主要有两个大类：

利用一些预定义好的属性来进行生成，比如对于路况图像，可以判断路上多少车，然后判断路况堵不堵之后就可以生成描述。但这样不具有可扩展性，对于每种场景都需要定制。
使用搜索排序的方法定义该问题，即对于每张图像，在已有的描述中选择最好的一个。这种方法的限制在于不能生成新的语句。

网络模型

图像到文字的问题可以看做是一种机器翻译，在现在的机器翻译模型中，以LSTM为基础的seq2seq模型成为主流，该模型的基本思想是，对于一个数据pair (A, B)。因为A和B表达的是同一个意思，所以存在某种隐含状态h，使得A和B都对应到h。于是seq2seq模型就先对A进行编码，得到一个数据表示，再基于这个数据表示去解码，生成目标语言的文字。

图像到文字也类似，假设存在某种隐含状态h，图像可以编码到h，而基于h可以生成目标语句。

用公式表示则是：