论文解读:Dynamic Memory Networks for Visual and Textual Question Answering
Posted yealxxy
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了论文解读:Dynamic Memory Networks for Visual and Textual Question Answering相关的知识,希望对你有一定的参考价值。
这是关于VQA问题的第六篇系列文章。本篇文章将介绍论文:主要思想;模型方法;主要贡献。有兴趣可以查看原文:Dynamic Memory Networks for Visual and Textual Question Answering
1,主要思想:
这篇文章是从动态记忆网络改进的:Ask Me Anything: Dynamic Memory Networks for Natural Language Processing,可以查看另一篇文章对记忆网络的的介绍:记忆网络,大家想深入理解这篇文章,建议先看看动态记忆网络的论文,或者点开记忆网络的连接。这篇论文主要修改了输入部分,对文本和图像都做了修改,让记忆网络在问答问题中有更好的表现。
2,模型结构
动态记忆网络由四部分组成:Input Module、Question Module、Episodic Memory Module、Answer Module。这篇文章主要介绍修改部分:Input Module,与Episodic Memory Module
a.Input Module for Text QA:文本输入
之前的只采用单项GRU网络处理文本输入,这样会减少输入的信息,因为只考虑了一个方向的影响,而且能考虑的长度有限。下面介绍这篇文章的处理方式:由两部分组成:
-
sentence reader:使用一个sentence reader专门用来将word embedding转化为sentence embedding。
-
fusion layer:采用双向RGU融合每个句子的信息
b.Input Module for VQA
先使用VGG-19提取图像的特征图,然后把特征图使用激活函数为tanh的线性层映射到同question同一空间的向量,最后使用双向GRU获取信息。由三部分组成:
- Local region feature extraction:使用VGG-19 model的最后输出作为图像特征。
- Visual feature embedding:把图像特征映射到文本特征一个维度。
- Input fusion layer:不变。
c.The Episodic Memory Module
这里是这篇文章重要的部分,迭代推理过程
-
gate function:注意力权重计算公式。
-
注意力方式一:Soft attention,也就是单纯的加权求和。
这种办法的优势在于计算简单,可以选择重要的信息。没有考虑位置信息,会损失一些信息。
-
注意力方式二:Attention based GRU,把权重加到GRU内部。
正常的GRU计算过程:
u的功能是考虑保留多少信息,作者将u修改成权重g。
-
因此,这里的计算过程为:
-
Episode Memory Updates:记忆内容的更新。这里也有所不同,采用ReLU进行变换:
3,贡献
- 本文对输入进行改良,可以捕获跟多的信息。
- 提出了基于attention的RGU模型。
- 把记忆网络用于vqa。
以上是关于论文解读:Dynamic Memory Networks for Visual and Textual Question Answering的主要内容,如果未能解决你的问题,请参考以下文章
论文解读:Deep High Dynamic Range Imaging of Dynamic Scenes
论文解读:Deep High Dynamic Range Imaging of Dynamic Scenes
论文解读:Deep High Dynamic Range Imaging of Dynamic Scenes
论文阅读Ask me anything: Dynamic memory networks for natural language processing
论文解读:A Focused Dynamic Attention Model for Visual Question Answering