多模态数据联合Embedding的方法小结

Posted 2022-04-23 lukestepbystep

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了多模态数据联合Embedding的方法小结相关的知识，希望对你有一定的参考价值。

当模型需要接受多个模态的数据时，往往需要设计合适的方法让他们能进行信息的融合，Joint embedding是一种较为普遍的思路，即将他们映射到同一个向量空间中，再进行融合。

向量拼接、元素级相乘、做out product得到矩阵、求和。缺点是缺乏表达能力
Multimodal Compact Bilinear pooling (MCB)^[1]，首先把两个模态的特征向量独自和未来需要组合的内容共同映射到一个低维空间中，两个低维向量再做out product得到矩阵（作者使用FFT在频域上进行out product以降低计算复杂度，再将结果转换回来）。随后还有Multimodal Low-rank Bilinear pooling (MLB)^[^2]、Multimodal Factorized Bilinear pooling (MFB)^[3]原理都较为类似。
Multimodal Residual Networks (MRN)^[4]受到深度残差结构的启发，利用神经网络去学习联合embedding并在其中加入shortcuts使其两个模态可以互相影响共同学习映射。

[1] Multimodal Compact Bilinear Pooling for Visual Question Answering and Visual Grounding

[2] Hadamard product for low-rank bilinear pooling

[3] Multi-modal factorized bilinear pooling with co-attention learning for visual question answering

[4] Multimodal residual learning for visual qa

以上是关于多模态数据联合Embedding的方法小结的主要内容，如果未能解决你的问题，请参考以下文章