论文解读：A Focused Dynamic Attention Model for Visual Question Answering

Posted 2022-12-14 yealxxy

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了论文解读：A Focused Dynamic Attention Model for Visual Question Answering相关的知识，希望对你有一定的参考价值。

这是关于VQA问题的第四篇系列文章。本篇文章将介绍论文：主要思想；模型方法；主要贡献。有兴趣可以查看原文：A Focused Dynamic Attention Model for Visual Question Answering。

Focused Dynamic Attention (FDA)模型： 通过问题的关键词，识别图像中重要的对象；并通过LSTM单元融合来自区域和全局特征的信息。然后将这种问题驱动的表示与问题表示相结合，并将其输入到用于生成答案的推理单元中。

采用LSTM对问题文本提取问题表达信息。

采用预训练的Deep Residual Networks model获取图像信息。

采用element-wise multiplication融合两个向量，用全连接加softmax输出。

以上是关于论文解读：A Focused Dynamic Attention Model for Visual Question Answering的主要内容，如果未能解决你的问题，请参考以下文章