生成式人工智能(Generative AI)入门指南

Posted 小北的北

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了生成式人工智能(Generative AI)入门指南相关的知识,希望对你有一定的参考价值。

 一位软件架构师的视角

作为一名软件架构师,我有幸见证了人工智能(AI)的发展以及其在各个行业中的应用。近期获得动力的 AI 领域之一是生成式 AI。在本篇博客中,我将深入探讨生成式 AI 的世界,提供定义,讨论其应用,探索背后的技术以及从这一开创性技术中受益的行业。

什么是生成式 AI?

生成式 AI 是人工智能的一个子领域,专注于通过学习现有数据的模式创建新内容或生成解决方案。它是一种鼓励 AI 系统利用对数据结构的理解自主生成新颖、类似于人类的输出的方法。这可以采用图像、文本、音乐或甚至是代码的形式呈现。

生成式 AI 的支柱:构建模块

    1. 深度学习生成式 AI 利用深度学习技术来理解和解释复杂的数据结构。它使用神经网络,特别是生成式对抗网络(GAN)和变分自编码器(VAE),来模拟底层数据分布,从而可以生成逼真的内容。

    2. 自然语言处理(NLP)是生成式 AI 的一个关键组成部分,它允许系统理解、解释和生成可读的文本。NLP 技术,如标记化和情感分析,有助于训练 AI 模型理解上下文并生成连贯的输出。

    3. 强化学习在训练生成式 AI 模型方面起着至关重要的作用,使系统能够通过试错学习。通过不断优化其输出,AI 系统可以提高其性能并产生更高质量的结果。

生成式 AI 的架构

在其核心,生成式 AI 依赖于深度学习技术和人工神经网络,这些网络受到人类大脑结构和功能的启发。这些网络由多个层级的互联节点或神经元组成,处理和传输信息。

生成式 AI 模型通过学习训练数据中的模式和关系,使其能够基于所学特征生成新内容。两种主要的生成模型架构主导了生成模型的领域:生成式对抗网络(GAN)和变分自编码器(VAE)。

    1. 生成对抗网络(GANs):GANs由两个神经网络组成,生成器和鉴别器,它们在竞争中一起工作。生成器创建新内容,而鉴别器评估生成内容的质量,并将其与真实数据进行比较。通过这个过程,生成器逐渐改进其创建逼真和高质量内容的能力。

    2. 变分自编码器(VAEs):VAEs是另一种流行的生成模型架构,它结合了深度学习和概率建模的方面。VAEs使用编码器将数据压缩成低维表示,并使用解码器重构数据。通过从低维空间进行采样,VAEs可以生成类似于训练数据的新内容。

不同类型的AI模型和技术

除了传统技术外,现代生成式AI模型还使用深度学习和神经网络。深度学习是机器学习的一个子集,使用大型神经网络从数据中学习并进行预测。神经网络由相互连接的神经元组成,受到环境输入的激活。

这些技术用于创建可以解决各种问题的生成式AI模型,从自然语言处理到物体识别。生成式AI模型还可用于生成艺术、音乐和其他创意应用。

    1. GPT-3(生成式预训练转换器3):GPT-3是一种先进的语言模型,可以基于给定提示生成类似人类的文本。它依赖于Transformer架构,可以有效地处理大规模语言数据。GPT-3因其在广泛应用中创建连贯且上下文相关的文本能力而受到广泛关注。

    2. DALL-E:由OpenAI开发,DALL-E是一种生成式模型,可以根据文本描述创建原始图像。它将GPT-3的能力与图像生成技术相结合,使其能够生成与输入文本相匹配的视觉想象力极强的图像。

    3. 强化学习:虽然它本身不是生成式模型,但强化学习是一种可以与生成式模型结合使用来优化其性能的人工智能技术。在强化学习中,AI代理通过与环境交互并接收奖励或惩罚的反馈来学习做出决策。这种方法可用于微调生成式模型,提高其创建高质量内容的能力。

生成式人工智能在我们的生活和工作中的应用

生成式人工智能越来越成为我们生活和工作中不可或缺的一部分。从医疗保健到金融领域,越来越多的人工智能模型被用于解决复杂的问题和自动化流程。

随着生成式人工智能的广泛应用,也出现了一些必须解决的挑战。保护用户数据和隐私至关重要;潜在的数据泄露和个人信息的滥用可能会带来灾难性的后果。同样,生成式人工智能模型中可能引入偏见,这可能会带来不道德的影响。

生成式人工智能也对就业市场产生了影响,特别是对软件工程师和其他相关领域。自动化和其他生成式人工智能模型变得越来越复杂,导致某些工作被替代。为了缓解这种情况,软件工程师应该注重提升自己的技能,并转入其他工作市场。

代码生成是生成式人工智能的另一个令人兴奋的应用,它可以帮助开发人员更快速、更有效地编写代码。通过学习现有代码库,人工智能系统可以生成代码片段甚至整个应用程序,减少软件开发所需的时间和精力。

设计和原型制作受益于生成式人工智能的广泛应用,因为它允许设计师快速探索多种设计变化。这加速了设计过程,节省了资源,并激发了颠覆性的想法,重新定义了我们周围的世界。

在药物研发和材料科学中,生成式人工智能具有带来变革的潜力。通过生成新型分子结构并分析其性质,人工智能技术可以帮助研究人员以前所未有的效率确定有前途的新化合物和材料,为改变人类生活带来希望。

总的来说,生成式人工智能为各行各业的自动化和问题解决提供了一系列令人难以置信的机会。

结论

理解生成式AI的技术方面和架构对于释放其全部潜力至关重要。随着我们不断开发更先进的模型和技术,创新和创造的可能性几乎是无限的。

通过积极接受生成式AI并了解其进展,我们可以利用其力量来彻底改变产业、重新定义内容创作,并以前所未有的方式重塑我们的生活。在接下来的文章中,我们将探讨真实世界的例子和用例、伦理考虑以及生成式AI的未来,提供对这种变革性技术及其对我们世界的影响的全面理解。

·  END  ·

HAPPY LIFE

AI未来十年新范式,生成式人工智能的挑战与机遇

目录

0 写在前面

2023年3月18日,由中国图象图形学学会(CSIG)主办,合合信息、CSIG文档图像分析与识别专业委员会联合承办的“CSIG图像图形企业行”系列活动将正式举办,通过搭建学术界与企业交流合作平台,为企业创新发展提供科技支撑,为图像图形领域高校师生提供与企业互动机会,集结产学研力量,共同推动图像图形领域的发展。


很荣幸聆听了上海交通大学人工智能研究院常务副院长、人工智能教育部重点实验室主任杨小康教授关于生成式人工智能(Generative AI)的技术分享。在讲座中,我看到了人工智能在图形图像领域日新月异的变化,以及前沿技术赋能生产、生活的无限可能。

1 什么是生成式模型?

杨小康:判别式模型支撑了人工智能的过去十年,而生成式模型是人工智能的未来十年

贯穿讲座中的一个很重要的概念就是生成式模型,那么什么是生成式模型?为什么说生成式模型是人工智能的未来十年呢?

我们知道,机器学习模型主要分为两类:

  • 判别式模型(discriminative models)
  • 生成式模型(generative models)

对于给定样本 x \\boldsymbolx x,前者通过对后验概率 P ( y ^ ∣ x ) P\\left( \\haty|\\boldsymbolx \\right) P(y^x)建模求得数据的最优决策边界;后者通过对联合概率 P ( x , y ^ ) P\\left( \\boldsymbolx,\\haty \\right) P(x,y^)建模求得数据各模式的决策边界。

机器学习模型的分类(绿色为新样本)

如图所示,判别式模型通过最优决策边界计算 P ( y ^ ∣ x ) P\\left( \\haty|\\boldsymbolx \\right) P(y^x),并选择使 P ( y ^ ∣ x ) P\\left( \\haty|\\boldsymbolx \\right) P(y^x)较大的 y ^ \\haty y^作为 x \\boldsymbolx x的预测值;生成式模型通过比较样本 x \\boldsymbolx x与模型各模式间的相近程度,即通过联合概率间接计算样本 x \\boldsymbolx x对各模式的后验概率,并选择使后验概率较大的 y ^ \\haty y^作为 x \\boldsymbolx x的预测值

两类模型的具体对比如表所示

项目判别式模型生成式模型
特点寻找最优决策边界,反映不同模式数据间的差异性寻找各模式边界,反映数据全体的统计全貌及不同模式间的相似度
联系由生成式模型可推导判别式模型,反之不成立
本质对后验概率建模对联合概率建模
实例线性回归、Logistic回归、支持向量机、决策树、神经网络等贝叶斯网络、贝叶斯分类器、隐马尔科夫模型等
性能学习过程更简单,但不能反映数据本身特性模型信息量更丰富、灵活,但学习过程较复杂
应用图像文本分类、时间序列预测等自然语言处理等

从上面的分析可以看出:生成式模型和判别式模型是两种截然不同的人工智能模型。判别式模型的主要任务是对给定输入进行分类或标记,而生成式模型则是根据给定的条件生成新的数据。

在过去,人们只希望基于已有的给定数据做一些预测和拟合,因此判别式模型得到发展并且很好地解决了大部分任务;而未来,人们将目标转向用生成式模型生成全新数据,进行迁移学习等,也就是常说的人工智能生成内容(AI Generated Content, AIGC)

图源网络,侵删

为什么我们需要生成全新数据?

答案很简单:我们希望提高人工智能的工作上限,就不能仅仅依靠它对已有数据的拟合,而是像人一样有一定的创新能力。

生成式模型相比判别式模型的独特优势,使之可以应对更多的任务,例如推动内容开发、视觉艺术创作、数字孪生、自动编程,甚至为科学研究提供AI视角、Al直觉…因此生成式人工智能的未来发展趋势。

针对生成式人工智能,杨小康教授还提出了一个有意思的问题

预计到2025,生成式人工智能产生的数据将占据人类全部数据的10%,那么根据二八原则,当生成式数据超过80%的时候,人类是否全面进入元宇宙?

大家可以思考一下~

2 生成式模型的挑战

挑战与机遇并存,生成式模型带来广阔前景的同时,也存在着非常大的挑战。杨小康教授主要总结了三点:

  • 解空间巨大

    大家对高等代数中的解空间可能比较陌生,但是在人工智能领域有一个更形象的词——维数灾难(curse of dimensionality)

    如何理解这个问题?首先考虑单个特征的情形,假设在样本 x x x任意小邻域 δ \\delta δ内都存在样本,则称对样本空间进行了密采样(dense sample)。例如取 δ = 0.01 \\delta =0.01 δ=0.01,则在归一化样本平均分布的情况下需要采样100个样本。

    然而,机器学习任务中通常面临高维特征空间,若特征维数为40,则要实现密采样就需要 1 0 80 10^80 1080个样本——相当于宇宙中基本粒子的总数。所以密采样在高维特征空间中无法实现,换言之,高维特征样本分布非常稀疏,给机器学习训练、算法采样优化带来了困难。这种高维情形下机器学习任务产生严重障碍现象就称为维数灾难,维数灾难还会以指数级的规模造成计算复杂度上升、存储占用大等问题。

  • 宏观一致性

    以视频生成为例,需要的像素感受野很大。如何预测目标及结构的长期运动变化?杨小康教授指出现在图像三维重建的一个问题是,重建出来的图像在多个角度呈现的宏观结构可能不一致,比如一个人在做转头的动作,重建出来的人像可能差异较大

  • 微观清晰度

    如何有效逼近多模分布,避免产生模糊预测效果?包括数据不完整、模型不准确、外部干扰等对图像生成造成的影响。例如,在生成图像时,模型可能会将一些细节部分模糊化或缺失,导致生成的图像与原始图像相比缺乏细节。

3 自主智能新架构

前面说过,生成式模型是全新的人工智能模式,核心是让AI创造出新数据。这就要求AI需要像人一样具有对世界的理解,以及基于此的创新能力。

然而,动物和人类表现出的学习能力和对世界的理解,远远超出了 AI 和机器学习系统。一个青少年可以在大约 20 小时的练习中学会开车,小朋友可以在只需要很少的交流后就学会语言沟通,人类可以在他们从未遇到过的情况下采取行动。

相比之下,无论是传统的判别式模型还是现在着力发展的生成式模型,都需要花费比人类大几个量级的试验进行训练,以便在训练期间可以覆盖最意外的情况。尽管如此,我们最好的AI系统在现实世界任务——例如自动驾驶中仍远未达到人类可靠性。

这是否意味着当下的人工智能学习模式,和人工智能模型的发展产生不适配?杨小康教授以此引出图灵奖得住LeCun提出的全新自主智能架构

图源网络,侵删

在上图所示的自主智能架构中包含多个模块,其中的核心也是最复杂的组件是世界模型,因为要实现通用人工智能,最关键的一点是让机器了解世界是如何运转的,掌握广泛的现实知识,并依据此进行推理

世界模型可以

  • 估计感知模块未提供的关于世界状态的缺失信息,例如杨小康教授介绍的神经流体物理仿真推理工作;
  • 预测世界的合理未来状态,由表征世界状态不确定性的潜在变量进行参数化,这是AI学会推理的基础

4 持续学习与表征解耦

世界模型有一个关键的问题:它必须能够表征世界状态的多种可能预测。然而,自然世界不是完全可以预测的,特别是包含具有对抗性的智能体时尤其如此。但即使世界只包含无生命的物体,它们的行为仍然是混乱的,其状态不能完全观察到。因此,在思考世界模型构建方法时,必须考量

杨小康:世界模型的核心问题是使用什么样的学习范式来训练世界模型;以及世界模型采用什么架构,如何用于决策?

毫不夸张的说,未来几十年阻碍人工智能发展的真正障碍是为世界模型设计架构以及训练范式。

4.1 学习范式

什么叫做学习范式?其实就是一种学习的规范方法。

世界模型中一个难点是灾难性遗忘,因为待学习的视觉控制任务是持续变化的,任务间存在先后顺序,和人一样,学习了新知识的AI就会对旧知识有所淡忘。例如,AI对机械臂的运动轨迹预测不准,对环境中其他物体的形貌预测模糊等等;另一个难点称为多重分布漂移,简单来说,就是在学习过程中假设标签分布固定,而只有输入数据分布的漂移而世界模型由于进行自回归训练,输出视频预测结果,因此不仅存在输入数据分布漂移,还存在输出数据分布漂移,以及不同任务间时空动态信息的分布漂移。

图源网络,侵删

可想而知,如果不采取一个好的学习范式,世界模型的泛化能力并不高。针对此,杨小康教授介绍了三种前沿方法:

  • 混合世界模型:变分推断+混合高斯,在各任务上学习独立的隐变量先验,缓解时空动态分布漂移
  • 预测式经验回放:经验回放其实是强化学习中的一个概念,原理是通过固定上一任务学习好混合世界模型参数,用于在后续任务上回放旧任务上的图像序列,回放结果与当前任务的真实数据混合,重新训练世界模型M,缓解输入和输出分布漂移
  • 持续世界模型:训练任务流式到来,训练环境不断变化;持续学习结束后,回测各历史任务,使持续预测学习中的任意阶段都能很好的保持已学习的时空动态信息,生成结果运动明确,物体清晰

4.2 学习架构

世界模型的第二个问题是学习架构,这里采用的核心思想是解耦。杨小康教授举了个例子来说明什么是解耦:当你驱车前往某地,你的驾驶行为不会对其他人的驾驶产生直接影响,每个人都是独立的智能个体,因此可以抽象出来分别考虑,这就是解耦。

解耦后,可以采用分布式的方法降低计算复杂度和整体系统的架构难度。同时,可对未来自然演变做独立外推从而构建有模型强化学习算法。例如,在自动驾驶场景中,驾驶员决策前,提前预判未来环境中可能的趋势——其他车辆的运动,并作出相应决策

图源《Iso-Dream: Isolating and Leveraging Noncontrollable Visual Dynamics in World Models》

针对表征解耦,杨小康教授主要介绍的是自动驾驶场景,他指出通过状态解耦,可以基于对自然状态的独立推演,生成更具有“危险预判能力”的驾驶策略。

总之,解耦架构可以使世界模型的表征难度下降,各组件间依赖降低,在线计算效率提升,是主流学习架构之一。

5 生成式AI与元宇宙

元宇宙(Metaverse)是指一个虚拟的、完全由计算机技术构建的多人在线世界,其概念最早出现在科幻小说中,如尼尔·斯蒂芬森的《雪崩》和安德鲁·尼克松的《Ready Player One》。这个世界是一个可交互的、持久存在的虚拟空间,可以模拟真实世界的各种场景和活动,并允许用户在其中创建、定制和掌控自己的数字化身份。在元宇宙中,用户可以像在现实世界中一样进行各种活动,例如购物、社交、游戏、学习、工作等。用户可以与其他玩家互动,建立社交关系,并在元宇宙中建立自己的数字资产,例如虚拟地产、虚拟货币、虚拟商品等。这些数字资产可以在元宇宙中进行交易,并且可以与现实世界的资产进行交换或转化。

图源网络,侵删

在元宇宙中,人依然是世界的主体,而生成式人工智能就给数字虚拟人的建模提供了有力的工具。使用生成式人工智能,可以大规模、高效地产生高拟真、可泛化、可驱动的虚拟数字人,相比传统计算机图形学的方法可以降低元宇宙数字人的成本。

杨小康教授还介绍了几种前沿方法,例如鲁棒纹理补全的生成对抗网络、基于物理的隐式可微渲染函数等。

元宇宙的发展将会带来许多潜在的商业机会和经济影响。例如,元宇宙中的数字资产可以为开发者和用户带来收入,从而促进元宇宙经济的发展。此外,元宇宙还可以为各种行业提供新的营销和广告机会,从而扩大市场规模。最后,元宇宙也可能会改变人类社会的基本结构和价值观,例如重新定义工作、教育和社交关系的本质。从元宇宙发展的角度看,生成式人工智能的意义重大。

6 智慧文档:赋能数字化转型

上海交通大学模式识别与智能系统博士郭丰俊进一步介绍了合合信息在智能文档处理方面的最新工作,深刻体现了前沿技术赋能数字化转型的源动力。郭丰俊老师主要讲解了

  • ROI提取:单区域提取、多区域提取
  • 形变矫正:倾斜透视矫正、弯曲矫正
  • 图像恢复:阴影去除、摩尔纹去除、反光去除
  • 质量增强:清晰度提升、增强锐化

等众多文档智能处理技术及其应用场景,例如表格矫正、文件手写擦除、电子屏幕去除摩尔纹干扰等。


这些智能文档处理应用极大提高了信息的处理效率和精度。与人工处理相比,智能文档处理具有更高的处理速度和准确性,能够自动化地进行数据抽取、识别、分类和分析等操作。这样,企业和个人可以更快地完成文件处理,减少重复性工作和出错率,提高工作效率。同时,也有助于信息的共享和利用。智能文档处理技术可以将数据转化为结构化的信息,使得文档内容更容易被计算机识别和处理。这样一来,不同部门和人员可以更方便地共享文件和信息,并快速获取所需的数据,从而促进了企业内部信息的流动和协作。

听完郭丰俊老师的讲解,深刻体会到智能文档处理技术对数字化转型的推动作用。相信通过应用智能文档处理技术,企业和个人可以更好地管理和利用信息,提高生产和服务的质量和效率。

7 结语

我相信,在不久的将来,生成式人工智能会更智能化和自适应,它们能够更好地理解我们的语言和文化背景,并适应不同场景和情境;更加多样化和具有创造力,以图像、音频、视频等多种模态,为人类带来更加丰富多彩的体验。同时,人工智能会更加可信和安全,能够识别和纠正错误和偏见,并能够避免生成虚假信息和恶意内容。

最后,感谢合合信息这次以图文智能处理与多场景应用技术展望为主题的系列技术交流活动,让我近距离接触学术界、工业界领军人物带来的前沿技术和研究成果分享。近年来,合合信息在智能文字识别技术先后在ICDAR、ICPR等人工智能国际竞赛中斩获15项冠军,学术成果在CVPR、AAAI、ACL等顶会上发表,相关项目获中国图象图形学学会(CSIG)科技进步奖二等奖。

除了技术深度,在科技温度上合合信息也展现了自己的能力,例如钟鼎文识别、古彝文识别、甲骨文金文识别等,相信未来合合信息会给我们带来更多期待。

以上是关于生成式人工智能(Generative AI)入门指南的主要内容,如果未能解决你的问题,请参考以下文章

简述一下生成对抗网络GAN(Generative adversarial nets)模型?

Score-based Generative Model:一统DDPM和SMLD两大生成式模型

Score-based Generative Model:一统DDPM和SMLD两大生成式模型

生成式对抗网络(Generative Adversarial Networks,GANs)

人工智能 AI机器学习快速入门教程(Google)

AI未来十年新范式,生成式人工智能的挑战与机遇