文本生成图像这么火，你需要了解这些技术的演变

Posted 2022-06-23 Charmve

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了文本生成图像这么火，你需要了解这些技术的演变相关的知识，希望对你有一定的参考价值。

大家好，我是Charmve！

目前多模态任务成为行业热点，今天将带大家梳理一下较为优秀的多模态文本图像模型：DALL·E、CLIP、GLIDE、DALL·E 2 (unCLIP)的模型框架、优缺点，及其迭代关系。

OpenAI 最近发布了DALL·E 2系统，在 AI 界引发了「地震」，该系统能够根据文本描述创建图像。这是 DALL·E 系统的第二个版本，第一个版本是在近一年前发布的。然而，在 OpenAI 内部，DALL·E 2 背后的模型被称为 unCLIP，它更接近于 OpenAI 的 GLIDE 系统，而不是原始的 DALL·E。

对笔者来说，DALL·E 2 系统的冲击力可以与 AlphaGo 相媲美。看起来该模型捕获了许多复杂的概念，并且以有意义的方式将它们组合起来。就在几年前，计算机能否从这样的文本描述中生成图像还是一件难以预测的事情。Sam Altman 在他的博客文章中提到，我们对 AI 的预测似乎是错误的，是需要更新的，因为 AI 已经开始影响创造性的工作，而非只是机械重复的工作。

本文旨在带领读者一览 OpenAI 的文本引导图像生成模型的演变，包括 DALL·E 的第一个和第二个版本以及其他的模型。

DALL·E 演变史

DALL·E 1

以上是关于文本生成图像这么火，你需要了解这些技术的演变的主要内容，如果未能解决你的问题，请参考以下文章

Python为什么这么火?你了解多少呢?

你知道为什么Netty这么火吗？与Mina相比又有什么优势？

大数据Flink进阶：数据架构的演变

Docker到底是什么？为什么它这么火！

Flutter移动UI框架最近这么火，你不了解一下吗?