论文解读:A Focused Dynamic Attention Model for Visual Question Answering
Posted yealxxy
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了论文解读:A Focused Dynamic Attention Model for Visual Question Answering相关的知识,希望对你有一定的参考价值。
这是关于VQA问题的第四篇系列文章。本篇文章将介绍论文:主要思想;模型方法;主要贡献。有兴趣可以查看原文:A Focused Dynamic Attention Model for Visual Question Answering。
1,主要思想:
Focused Dynamic Attention (FDA)模型: 通过问题的关键词,识别图像中重要的对象;并通过LSTM单元融合来自区域和全局特征的信息。 然后将这种问题驱动的表示与问题表示相结合,并将其输入到用于生成答案的推理单元中。
2,模型
a.问题特征:
采用LSTM对问题文本提取问题表达信息。
b.图像特征
采用预训练的Deep Residual Networks model获取图像信息。
c.Focused Dynamic Attention Mechanism(重要部分)
- 在训练期间,我们使用真实对象边界框和标签。 在测试时,预先计算的边界框,并用对它们进行分类,以获得对象标签。
- 首先: 对于每个图像对象,它使用word2vec单词嵌入来测量问题单词和对象标签之间的相似性。
- 其次: 它选择相似度得分大于0.5的对象,并用预先训练的ResNet模型提取对象边界框的特征向量。
- 再次: 按照问题单词顺序,把这些图像特征送入LSTM网络。
- 最后: 向LSTM网络提供整个图像的特征向量,并使用得到的LSTM状态作为视觉特征表示
d.产生预测
采用element-wise multiplication融合两个向量,用全连接加softmax输出。
3,主要贡献:
-
提出了FDA模型,用于vqa问题;
-
将局部和全局上下文视觉特征与文本特征融合在一起
-
在过个模型上对比了开放域和多项选择两个数据集
-
FDA可以减少噪声的影响:只考虑了重要的对象,其他没有对象的部分都丢掉了。并采用attention机制,找到与问题相关的对象。
以上是关于论文解读:A Focused Dynamic Attention Model for Visual Question Answering的主要内容,如果未能解决你的问题,请参考以下文章
论文解读:Deep High Dynamic Range Imaging of Dynamic Scenes
论文解读:Deep High Dynamic Range Imaging of Dynamic Scenes
论文解读:Deep High Dynamic Range Imaging of Dynamic Scenes
论文解读:Practical Lessons from Predicting Clicks on Ads at Facebook
论文解读:Dynamic Memory Networks for Visual and Textual Question Answering