文本生成图像这么火,你需要了解这些技术的演变
Posted Charmve
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了文本生成图像这么火,你需要了解这些技术的演变相关的知识,希望对你有一定的参考价值。
大家好,我是Charmve!
目前多模态任务成为行业热点,今天将带大家梳理一下较为优秀的多模态文本图像模型:DALL·E、CLIP、GLIDE、DALL·E 2 (unCLIP)的模型框架、优缺点,及其迭代关系。
OpenAI 最近发布了DALL·E 2系统,在 AI 界引发了「地震」,该系统能够根据文本描述创建图像。这是 DALL·E 系统的第二个版本,第一个版本是在近一年前发布的。然而,在 OpenAI 内部,DALL·E 2 背后的模型被称为 unCLIP,它更接近于 OpenAI 的 GLIDE 系统,而不是原始的 DALL·E。
对笔者来说,DALL·E 2 系统的冲击力可以与 AlphaGo 相媲美。看起来该模型捕获了许多复杂的概念,并且以有意义的方式将它们组合起来。就在几年前,计算机能否从这样的文本描述中生成图像还是一件难以预测的事情。Sam Altman 在他的博客文章中提到,我们对 AI 的预测似乎是错误的,是需要更新的,因为 AI 已经开始影响创造性的工作,而非只是机械重复的工作。
本文旨在带领读者一览 OpenAI 的文本引导图像生成模型的演变,包括 DALL·E 的第一个和第二个版本以及其他的模型。
DALL·E 演变史
DALL·E 1
以上是关于文本生成图像这么火,你需要了解这些技术的演变的主要内容,如果未能解决你的问题,请参考以下文章