2022预计要火的视觉语言理解和生成:一键生成图像标注,视觉问答,代码开源,官方 Demo 可玩
Posted 墨理学AI
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了2022预计要火的视觉语言理解和生成:一键生成图像标注,视觉问答,代码开源,官方 Demo 可玩相关的知识,希望对你有一定的参考价值。
- 🍊 各位读者小伙伴、元宵节快乐
- 📆 最近更新:2022年2月11日
- 🍊 趣学深度学习、AI 前沿、技术专栏、敬请关注
- 🍊 本文为大家分享一项好玩的,预计2022会火的视觉语言理解和生成任务
- 🍊 AI 之路、道阻且长、感谢无数前辈巨佬的倾情奉献
📕 一键生成图像标注,视觉问答,官方 Demo 可玩
论文基础信息如下
- BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation
- BLIP:引导语言图像预训练,实现统一的视觉语言理解和生成
- 论文地址:https://arxiv.org/pdf/2201.12086.pdf
- 代码地址:https://github.com/salesforce/BLIP
- 试玩地址:https://huggingface.co/spaces/akhaliq/BLIP
📕 官方 Demo 试玩效果
视觉语言理解和生成、操作三部曲如下
- 上传心仪图像
- 点击下方的提交按钮
- 等待几秒,右侧即可生成对应的:图像内容描述
引导式:智能问答
不懂就问:我要是上传一张自己的图像,它会不会直接猜到我心里在想什么
论文中的一些官方示例,红色是问题,绿色是回答,人工智能 YYDS 了
📕 网络结构
多个编码器-解码器
模型架构
研究者将一个视觉 transformer 用作图像编码器,该编码器将输入图像分解为 patch,然后将这些 patch 编码为序列嵌入,并使用一个额外的[CLS] token 表征全局图像特征。相较于将预训练目标检测器用于视觉特征提取的方法,使用 ViT 在计算上更友好,并且已被最近很多方法所采用。
为了预训练一个具备理解和生成能力的统一模型,研究者提出了多任务模型 MED(mixture of encoder-decoder),它可以执行以下三种功能的任意一种:
- 单峰编码器
- 基于图像的文本编码器
- 基于图像的文本解码器
预训练目标
研究者在预训练过程中共同优化了三个目标,分别是两个基于理解的目标和一个基于生成的目标。每个图像文本对只需要一个前向传播通过计算更重(computational-heavier)的视觉 transformer,需要三个前向传播通过文本 transformer,其中激活不同的功能以计算以下 3 个损失,分别是:
-
图像文本对比损失(image-text contrastive loss, ITC),激活单峰编码器,旨在通过鼓励正图像文本对(而非负对)具有相似的表征来对齐视觉与文本 transformer 的特征空间;
-
图像文本匹配损失(image-text matching loss, ITM),激活基于图像的文本编码器,旨在学习捕获视觉与语言之间细粒度对齐的图像文本多模态表征;
-
语言建模损失(language modeling loss, LM),激活基于图像的文本解码器,旨在给定一张图像时生成文本描述。
为了在利用多任务学习的同时实现高效的预训练,文本编码器和解码器必须共享除自注意力(self-attention, SA)层之外的所有参数。具体地,编码器使用双向自注意力为当前输入 token 构建表征,同时解码器使用因果自注意力预测接下来的 token。
另外,嵌入层、交叉注意力(cross attention, CA)层和 FFN 在编码和解码任务之间功能类似,因此共享这些层可以提升训练效率并能从多任务学习中获益。
- 🍊 说到编码器、解码器,层共享、大家有兴趣可继续查阅我的这篇博文,希望能够帮助大家带来一些灵感
- 🍊【深度学习入门项目】给学妹换个风格,画风突变【❤️CVPR 2020 风格迁移之NICE-GAN❤️】
- 🍊 Nice -GAN环境搭建 ——模型训练有效教程——【一文读懂】
📕 实验:数据集指标PK
实验结果
研究者在 PyTorch 中实现模型,并在两个 16-GPU 节点上预训练模型。其中,图像 transformer 源于在 ImageNet 上预训练的 ViT,文本 transformer 源于 BERT_base。
- 主流数据集:COCO 、 Flickr
- 超分重建数据集 DIV2K & Flickr2K 下载地址【有效分享】
这个论文的工作感觉还是相当有意思,大家有兴趣,可下载原文进行详细研究,传送门地址如下
- 论文地址:https://arxiv.org/pdf/2201.12086.pdf
- 代码地址:https://github.com/salesforce/BLIP
- 试玩地址:https://huggingface.co/spaces/akhaliq/BLIP
📙 博主 AI 领域八大干货专栏、诚不我欺
- 🍊 计算机视觉: Yolo专栏、一文读懂
- 🍊 计算机视觉:图像风格转换–论文–代码测试
- 🍊 计算机视觉:图像修复-代码环境搭建-知识总结
- 🍊 计算机视觉:超分重建-代码环境搭建-知识总结
- 🍊 深度学习:环境搭建,一文读懂
- 🍊 深度学习:趣学深度学习
- 🍊 落地部署应用:模型部署之转换-加速-封装
- 🍊 CV 和 语音数据集:数据集整理
📙 预祝各位 前途似锦、可摘星辰
- 🎉 作为全网 AI 领域 干货最多的博主之一,❤️ 不负光阴不负卿 ❤️
- ❤️ 过去的每一天、想必你也都有努力、祝你披荆斩棘、未来可期
-
🍊 点赞 👍 收藏 ⭐留言 📝 都是博主坚持写作、更新高质量博文的最大动力!
以上是关于2022预计要火的视觉语言理解和生成:一键生成图像标注,视觉问答,代码开源,官方 Demo 可玩的主要内容,如果未能解决你的问题,请参考以下文章