多模态bert-基于双流的bert 笔记 ViLBertLXMERTIMAGEBERT

Posted mishidemudong

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了多模态bert-基于双流的bert 笔记 ViLBertLXMERTIMAGEBERT相关的知识,希望对你有一定的参考价值。

ViLBert  
paper: ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks

基于双流的 ViLBERT,在一开始并未直接对语言信息和图片信息进行融合,而是先各自经过 Transformer 的编码器进行编码。分流设计是基于这样一个假设,语言的理解本身比图像复杂,而且图像的输入本身就是经过 Faster-RCNN 提取的较高层次的特征,因此两者所需要的编码深度应该是不一样的。
 
 

双流的 ViLBERT包括两个平行的视觉(绿色)和语言(紫色)处理流,它们通过新的共同注意转换层相互作用。这种结构允许每个模态的不同深度,并通过共同注意实现稀疏交互。带乘数下标的虚线框表示重复的层块。

 输入:Image 和text :

输出:Attention 过的 Image 和text 的表示

模型

1.预训练步骤

2.联合表示Image 和Text

两个任务:1. 预训练:Mask掉image 和部分文字去预测image 或者word ;2 微调:预测是否对应

创新:在结构上加入交互attention之后去训练

2. LXMERT 论文解读
paper:(EMNLP 2019) LXMERT: Learning Cross-Modality Encoder Representations from Transformers

code: https://github.com/airsplay/lxmert

理解这两种模式之间的对齐和关系,提出对两种模态分布进行建模。这个框架模仿了最近的bert风格的创新,同时进一步适应了有用的跨模态场景。我们的新跨模态模型侧重于视觉和语言的交互学习,特别是对单个图像的表示和它的描述性语句。

模型结构


Input Embeddings:Word Embedding && Image Embeddings

Q:TODO Object-Level Image Embeddings  怎么做???

Encoders :language encoder && the object-relationship encoder

Output Representations:

language, vision, and cross-modality

训练任务:1. Language Task: Masked Cross-Modality LM

2 Vision Task: Masked Object Prediction

3 Cross-Modality Tasks

单流Bert--------image-text  joint embedding

3. IMAGEBERT
Paper : I MAGE BERT: C ROSS - MODAL P RE -TRAINING WITH L ARGE - SCALE W EAK - SUPERVISED I MAGE -T EXT D ATA
 

数据收集过程

以上是关于多模态bert-基于双流的bert 笔记 ViLBertLXMERTIMAGEBERT的主要内容,如果未能解决你的问题,请参考以下文章

多模态bert-基于双流的bert 笔记 ViLBertLXMERTIMAGEBERT

论文泛读198通过输入空间转换利用 BERT 进行多模态目标情感分类

论文泛读198通过输入空间转换利用 BERT 进行多模态目标情感分类

论文泛读198通过输入空间转换利用 BERT 进行多模态目标情感分类

学习笔记:深度学习——基于PyTorch的BERT应用实践

踩坑笔记(pytorch-bert,dataframe,交叉熵)