论文解读:A Focused Dynamic Attention Model for Visual Question Answering

Posted yealxxy

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了论文解读:A Focused Dynamic Attention Model for Visual Question Answering相关的知识,希望对你有一定的参考价值。

这是关于VQA问题的第四篇系列文章。本篇文章将介绍论文:主要思想;模型方法;主要贡献。有兴趣可以查看原文:A Focused Dynamic Attention Model for Visual Question Answering

1,主要思想:

Focused Dynamic Attention (FDA)模型: 通过问题的关键词,识别图像中重要的对象;并通过LSTM单元融合来自区域和全局特征的信息。 然后将这种问题驱动的表示与问题表示相结合,并将其输入到用于生成答案的推理单元中。

2,模型

a.问题特征:

采用LSTM对问题文本提取问题表达信息。

b.图像特征

采用预训练的Deep Residual Networks model获取图像信息。

c.Focused Dynamic Attention Mechanism(重要部分)

  • 在训练期间,我们使用真实对象边界框和标签。 在测试时,预先计算的边界框,并用对它们进行分类,以获得对象标签。
  • 首先: 对于每个图像对象,它使用word2vec单词嵌入来测量问题单词和对象标签之间的相似性。
  • 其次: 它选择相似度得分大于0.5的对象,并用预先训练的ResNet模型提取对象边界框的特征向量。
  • 再次: 按照问题单词顺序,把这些图像特征送入LSTM网络。
  • 最后: 向LSTM网络提供整个图像的特征向量,并使用得到的LSTM状态作为视觉特征表示

d.产生预测

采用element-wise multiplication融合两个向量,用全连接加softmax输出。

3,主要贡献:

  • 提出了FDA模型,用于vqa问题;

  • 将局部和全局上下文视觉特征与文本特征融合在一起

  • 在过个模型上对比了开放域和多项选择两个数据集

  • FDA可以减少噪声的影响:只考虑了重要的对象,其他没有对象的部分都丢掉了。并采用attention机制,找到与问题相关的对象。

以上是关于论文解读:A Focused Dynamic Attention Model for Visual Question Answering的主要内容,如果未能解决你的问题,请参考以下文章

论文解读:Deep High Dynamic Range Imaging of Dynamic Scenes

论文解读:Deep High Dynamic Range Imaging of Dynamic Scenes

论文解读:Deep High Dynamic Range Imaging of Dynamic Scenes

Soft Actor-Critic 论文解读

论文解读:Practical Lessons from Predicting Clicks on Ads at Facebook

论文解读:Dynamic Memory Networks for Visual and Textual Question Answering