论文解读:Hierarchical Question-Image Co-Attention for Visual Question Answering

Posted yealxxy

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了论文解读:Hierarchical Question-Image Co-Attention for Visual Question Answering相关的知识,希望对你有一定的参考价值。

这是关于VQA问题的第七篇系列文章。本篇文章将介绍论文:主要思想;模型方法;主要贡献。有兴趣可以查看原文:Hierarchical Question-Image Co-Attention for Visual Question Answering

1,主要思想:

当前基于视觉注意的些VQA方法主要关注:”where to look”或者 visual attention。本文认为基于问题的attention “which word to listen to ” 或者question attenion也相当重要。基于这个动机,文中提出一种多模态注意模型:Co-attention + Question Hierarchy。即是图像和问题文本相互关注。

2,模型介绍

模型有两部分组成:

  • Co-Attention:这个部分包括基于图像的attention和基于问题的attention。
  • Question Hierarchy:论文提出一种图像和问题协同注意的分层架构,主要分为三层。word level。将每个单词表示成向量 ;phrase level 利用一个1D CNN提取特征 ;question level 利用RNN编码整个问题。

a.Question Hierarchy

  • word-level feature:问题映射到一个向量空间,换成词向量
  • phrase-level feature:利用1-D CNN作用于Qw,在每个单词位置计算单词向量和卷积核的内积,卷积核有三个size,unigram, bigram and trigram。

  • question-level feature:将得到的max-pooling结果送入到LSTM中提取特征。全部过程如下图。

b.Co-Attention

图像和问题的关注机制,论文提出了两种方法:

  • Parallel Co-Attention:通过计算image和question特征之间的相似性,使image和question联系起来。

    给定image feature map V和question 表示Q,计算相关矩阵C:

    将C当作是一种特征,可以预测image和question attention maps:

    基于以上的attention weight,image和question attention map可以计算image features和question features:

  • Alternating Co-Attention:主要由三步组成:1.将问题总结成一个单向量q;2.基于q,集中注意于image;3.基于attended image feature,集中注意question。

    论文先定义了一个关注操作的函数:

    第一步:X = Q, and g is 0;
    第二步:X = V where V is the image features,guidance g is intermediate attended question feature ^s from the first step
    第三步:we use the attended image feature ^v as the guidance to attend the question again, i.e., X = Q and g = ^v.

  • Encoding for Predicting Answers:利用MLP编码attention features。w,p,s是word level, phrase level and question level三个维度的提取的特征。

3,主要贡献:

  • 提出co-attention mechanism 机制处理VQA任务,并且采用两种策略应用这中机制,parallel and alternating co-attention。
  • 采用分层结构表示问题,因此构建的image-question co-attention maps分为三个层次:word level, phrase level and question level.
  • 在phrase level,采用convolution-pooling strategy 自适应选择phrase size。

以上是关于论文解读:Hierarchical Question-Image Co-Attention for Visual Question Answering的主要内容,如果未能解决你的问题,请参考以下文章

论文笔记:FeUdal Networks for Hierarchical Reinforcement Learning

论文笔记 Hierarchical Reinforcement Learning for Scarce Medical Resource Allocation

[论文阅读笔记] HARP Hierarchical Representation Learning for Networks

论文笔记之: Hierarchical Convolutional Features for Visual Tracking

论文阅读-Hierarchical Cross-Modal Talking Face Generation with Dynamic Pixel-Wise Loss

论文阅读Learning Effective Road Network Representation with Hierarchical Graph Neural Networks