论文解读:Dynamic Memory Networks for Visual and Textual Question Answering

Posted yealxxy

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了论文解读:Dynamic Memory Networks for Visual and Textual Question Answering相关的知识,希望对你有一定的参考价值。

这是关于VQA问题的第六篇系列文章。本篇文章将介绍论文:主要思想;模型方法;主要贡献。有兴趣可以查看原文:Dynamic Memory Networks for Visual and Textual Question Answering

1,主要思想:

这篇文章是从动态记忆网络改进的:Ask Me Anything: Dynamic Memory Networks for Natural Language Processing,可以查看另一篇文章对记忆网络的的介绍:记忆网络,大家想深入理解这篇文章,建议先看看动态记忆网络的论文,或者点开记忆网络的连接。这篇论文主要修改了输入部分,对文本和图像都做了修改,让记忆网络在问答问题中有更好的表现。

2,模型结构

动态记忆网络由四部分组成:Input Module、Question Module、Episodic Memory Module、Answer Module。这篇文章主要介绍修改部分:Input Module,与Episodic Memory Module


a.Input Module for Text QA:文本输入

之前的只采用单项GRU网络处理文本输入,这样会减少输入的信息,因为只考虑了一个方向的影响,而且能考虑的长度有限。下面介绍这篇文章的处理方式:由两部分组成:

  • sentence reader:使用一个sentence reader专门用来将word embedding转化为sentence embedding。

  • fusion layer:采用双向RGU融合每个句子的信息

b.Input Module for VQA

先使用VGG-19提取图像的特征图,然后把特征图使用激活函数为tanh的线性层映射到同question同一空间的向量,最后使用双向GRU获取信息。由三部分组成:

  • Local region feature extraction:使用VGG-19 model的最后输出作为图像特征。
  • Visual feature embedding:把图像特征映射到文本特征一个维度。
  • Input fusion layer:不变。

c.The Episodic Memory Module

这里是这篇文章重要的部分,迭代推理过程

  • gate function:注意力权重计算公式。

  • 注意力方式一:Soft attention,也就是单纯的加权求和。
    这种办法的优势在于计算简单,可以选择重要的信息。没有考虑位置信息,会损失一些信息。

  • 注意力方式二:Attention based GRU,把权重加到GRU内部。

    正常的GRU计算过程:

    u的功能是考虑保留多少信息,作者将u修改成权重g。

  • 因此,这里的计算过程为:

  • Episode Memory Updates:记忆内容的更新。这里也有所不同,采用ReLU进行变换:

3,贡献

  • 本文对输入进行改良,可以捕获跟多的信息。
  • 提出了基于attention的RGU模型。
  • 把记忆网络用于vqa。

以上是关于论文解读:Dynamic Memory Networks for Visual and Textual Question Answering的主要内容,如果未能解决你的问题,请参考以下文章

论文解读:Deep High Dynamic Range Imaging of Dynamic Scenes

论文解读:Deep High Dynamic Range Imaging of Dynamic Scenes

论文解读:Deep High Dynamic Range Imaging of Dynamic Scenes

论文阅读Ask me anything: Dynamic memory networks for natural language processing

论文解读:记忆网络(Memory Network)

论文解读:A Focused Dynamic Attention Model for Visual Question Answering