AI未来十年新范式，生成式人工智能的挑战与机遇

Posted 2023-04-08 Mr.Winter`

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了AI未来十年新范式，生成式人工智能的挑战与机遇相关的知识，希望对你有一定的参考价值。

0 写在前面

2023年3月18日，由中国图象图形学学会（CSIG）主办，合合信息、CSIG文档图像分析与识别专业委员会联合承办的“CSIG图像图形企业行”系列活动将正式举办，通过搭建学术界与企业交流合作平台，为企业创新发展提供科技支撑，为图像图形领域高校师生提供与企业互动机会，集结产学研力量，共同推动图像图形领域的发展。

很荣幸聆听了上海交通大学人工智能研究院常务副院长、人工智能教育部重点实验室主任杨小康教授关于生成式人工智能（Generative AI）的技术分享。在讲座中，我看到了人工智能在图形图像领域日新月异的变化，以及前沿技术赋能生产、生活的无限可能。

1 什么是生成式模型？

杨小康：判别式模型支撑了人工智能的过去十年，而生成式模型是人工智能的未来十年

贯穿讲座中的一个很重要的概念就是生成式模型，那么什么是生成式模型？为什么说生成式模型是人工智能的未来十年呢？

我们知道，机器学习模型主要分为两类：

判别式模型(discriminative models)
生成式模型(generative models)

对于给定样本 $\\boldsymbolx$ ，前者通过对后验概率 $P\\left( \\haty|\\boldsymbolx \\right)$ 建模求得数据的最优决策边界；后者通过对联合概率 $P\\left( \\boldsymbolx,\\haty \\right)$ 建模求得数据各模式的决策边界。

机器学习模型的分类(绿色为新样本)

如图所示，判别式模型通过最优决策边界计算 $P\\left( \\haty|\\boldsymbolx \\right)$ ，并选择使 $P\\left( \\haty|\\boldsymbolx \\right)$ 较大的 $\\haty$ 作为 $\\boldsymbolx$ 的预测值；生成式模型通过比较样本 $\\boldsymbolx$ 与模型各模式间的相近程度，即通过联合概率间接计算样本 $\\boldsymbolx$ 对各模式的后验概率，并选择使后验概率较大的 $\\haty$ 作为 $\\boldsymbolx$ 的预测值

两类模型的具体对比如表所示

项目	判别式模型	生成式模型
特点	寻找最优决策边界，反映不同模式数据间的差异性	寻找各模式边界，反映数据全体的统计全貌及不同模式间的相似度
联系	由生成式模型可推导判别式模型，反之不成立
本质	对后验概率建模	对联合概率建模
实例	线性回归、Logistic回归、支持向量机、决策树、神经网络等	贝叶斯网络、贝叶斯分类器、隐马尔科夫模型等
性能	学习过程更简单，但不能反映数据本身特性	模型信息量更丰富、灵活，但学习过程较复杂
应用	图像文本分类、时间序列预测等	自然语言处理等

从上面的分析可以看出：生成式模型和判别式模型是两种截然不同的人工智能模型。判别式模型的主要任务是对给定输入进行分类或标记，而生成式模型则是根据给定的条件生成新的数据。

在过去，人们只希望基于已有的给定数据做一些预测和拟合，因此判别式模型得到发展并且很好地解决了大部分任务；而未来，人们将目标转向用生成式模型生成全新数据，进行迁移学习等，也就是常说的人工智能生成内容(AI Generated Content, AIGC)

图源网络，侵删

为什么我们需要生成全新数据？

答案很简单：我们希望提高人工智能的工作上限，就不能仅仅依靠它对已有数据的拟合，而是像人一样有一定的创新能力。

生成式模型相比判别式模型的独特优势，使之可以应对更多的任务，例如推动内容开发、视觉艺术创作、数字孪生、自动编程，甚至为科学研究提供AI视角、Al直觉…因此生成式人工智能的未来发展趋势。

针对生成式人工智能，杨小康教授还提出了一个有意思的问题

预计到2025，生成式人工智能产生的数据将占据人类全部数据的10%，那么根据二八原则，当生成式数据超过80%的时候，人类是否全面进入元宇宙?

大家可以思考一下~

2 生成式模型的挑战

挑战与机遇并存，生成式模型带来广阔前景的同时，也存在着非常大的挑战。杨小康教授主要总结了三点：

解空间巨大

大家对高等代数中的解空间可能比较陌生，但是在人工智能领域有一个更形象的词——维数灾难(curse of dimensionality)。

如何理解这个问题？首先考虑单个特征的情形，假设在样本 $x$ 任意小邻域 $\\delta$ 内都存在样本，则称对样本空间进行了密采样(dense sample)。例如取 $\\delta =0.01$ ，则在归一化样本平均分布的情况下需要采样100个样本。

然而，机器学习任务中通常面临高维特征空间，若特征维数为40，则要实现密采样就需要 $10^80$ 个样本——相当于宇宙中基本粒子的总数。所以密采样在高维特征空间中无法实现，换言之，高维特征样本分布非常稀疏，给机器学习训练、算法采样优化带来了困难。这种高维情形下机器学习任务产生严重障碍现象就称为维数灾难，维数灾难还会以指数级的规模造成计算复杂度上升、存储占用大等问题。

宏观一致性

以视频生成为例，需要的像素感受野很大。如何预测目标及结构的长期运动变化?杨小康教授指出现在图像三维重建的一个问题是，重建出来的图像在多个角度呈现的宏观结构可能不一致，比如一个人在做转头的动作，重建出来的人像可能差异较大
微观清晰度

如何有效逼近多模分布，避免产生模糊预测效果?包括数据不完整、模型不准确、外部干扰等对图像生成造成的影响。例如，在生成图像时，模型可能会将一些细节部分模糊化或缺失，导致生成的图像与原始图像相比缺乏细节。

3 自主智能新架构

前面说过，生成式模型是全新的人工智能模式，核心是让AI创造出新数据。这就要求AI需要像人一样具有对世界的理解，以及基于此的创新能力。

然而，动物和人类表现出的学习能力和对世界的理解，远远超出了 AI 和机器学习系统。一个青少年可以在大约 20 小时的练习中学会开车，小朋友可以在只需要很少的交流后就学会语言沟通，人类可以在他们从未遇到过的情况下采取行动。

相比之下，无论是传统的判别式模型还是现在着力发展的生成式模型，都需要花费比人类大几个量级的试验进行训练，以便在训练期间可以覆盖最意外的情况。尽管如此，我们最好的AI系统在现实世界任务——例如自动驾驶中仍远未达到人类可靠性。

这是否意味着当下的人工智能学习模式，和人工智能模型的发展产生不适配？杨小康教授以此引出图灵奖得住LeCun提出的全新自主智能架构

图源网络，侵删

在上图所示的自主智能架构中包含多个模块，其中的核心也是最复杂的组件是世界模型，因为要实现通用人工智能，最关键的一点是让机器了解世界是如何运转的，掌握广泛的现实知识，并依据此进行推理。

世界模型可以

估计感知模块未提供的关于世界状态的缺失信息，例如杨小康教授介绍的神经流体、物理仿真推理工作；
预测世界的合理未来状态，由表征世界状态不确定性的潜在变量进行参数化，这是AI学会推理的基础

4 持续学习与表征解耦

世界模型有一个关键的问题：它必须能够表征世界状态的多种可能预测。然而，自然世界不是完全可以预测的，特别是包含具有对抗性的智能体时尤其如此。但即使世界只包含无生命的物体，它们的行为仍然是混乱的，其状态不能完全观察到。因此，在思考世界模型构建方法时，必须考量

杨小康：世界模型的核心问题是使用什么样的学习范式来训练世界模型；以及世界模型采用什么架构，如何用于决策?

毫不夸张的说，未来几十年阻碍人工智能发展的真正障碍是为世界模型设计架构以及训练范式。

4.1 学习范式

什么叫做学习范式？其实就是一种学习的规范方法。

世界模型中一个难点是灾难性遗忘，因为待学习的视觉控制任务是持续变化的，任务间存在先后顺序，和人一样，学习了新知识的AI就会对旧知识有所淡忘。例如，AI对机械臂的运动轨迹预测不准，对环境中其他物体的形貌预测模糊等等；另一个难点称为多重分布漂移，简单来说，就是在学习过程中假设标签分布固定，而只有输入数据分布的漂移而世界模型由于进行自回归训练，输出视频预测结果，因此不仅存在输入数据分布漂移，还存在输出数据分布漂移，以及不同任务间时空动态信息的分布漂移。

图源网络，侵删

可想而知，如果不采取一个好的学习范式，世界模型的泛化能力并不高。针对此，杨小康教授介绍了三种前沿方法：

混合世界模型：变分推断＋混合高斯，在各任务上学习独立的隐变量先验，缓解时空动态分布漂移
预测式经验回放：经验回放其实是强化学习中的一个概念，原理是通过固定上一任务学习好混合世界模型参数，用于在后续任务上回放旧任务上的图像序列，回放结果与当前任务的真实数据混合，重新训练世界模型M，缓解输入和输出分布漂移
持续世界模型：训练任务流式到来，训练环境不断变化；持续学习结束后，回测各历史任务，使持续预测学习中的任意阶段都能很好的保持已学习的时空动态信息，生成结果运动明确，物体清晰

4.2 学习架构

世界模型的第二个问题是学习架构，这里采用的核心思想是解耦。杨小康教授举了个例子来说明什么是解耦：当你驱车前往某地，你的驾驶行为不会对其他人的驾驶产生直接影响，每个人都是独立的智能个体，因此可以抽象出来分别考虑，这就是解耦。

解耦后，可以采用分布式的方法降低计算复杂度和整体系统的架构难度。同时，可对未来自然演变做独立外推从而构建有模型强化学习算法。例如，在自动驾驶场景中，驾驶员决策前，提前预判未来环境中可能的趋势——其他车辆的运动，并作出相应决策

图源《Iso-Dream: Isolating and Leveraging Noncontrollable Visual Dynamics in World Models》

针对表征解耦，杨小康教授主要介绍的是自动驾驶场景，他指出通过状态解耦，可以基于对自然状态的独立推演，生成更具有“危险预判能力”的驾驶策略。

总之，解耦架构可以使世界模型的表征难度下降，各组件间依赖降低，在线计算效率提升，是主流学习架构之一。

5 生成式AI与元宇宙

元宇宙（Metaverse）是指一个虚拟的、完全由计算机技术构建的多人在线世界，其概念最早出现在科幻小说中，如尼尔·斯蒂芬森的《雪崩》和安德鲁·尼克松的《Ready Player One》。这个世界是一个可交互的、持久存在的虚拟空间，可以模拟真实世界的各种场景和活动，并允许用户在其中创建、定制和掌控自己的数字化身份。在元宇宙中，用户可以像在现实世界中一样进行各种活动，例如购物、社交、游戏、学习、工作等。用户可以与其他玩家互动，建立社交关系，并在元宇宙中建立自己的数字资产，例如虚拟地产、虚拟货币、虚拟商品等。这些数字资产可以在元宇宙中进行交易，并且可以与现实世界的资产进行交换或转化。

图源网络，侵删

在元宇宙中，人依然是世界的主体，而生成式人工智能就给数字虚拟人的建模提供了有力的工具。使用生成式人工智能，可以大规模、高效地产生高拟真、可泛化、可驱动的虚拟数字人，相比传统计算机图形学的方法可以降低元宇宙数字人的成本。

杨小康教授还介绍了几种前沿方法，例如鲁棒纹理补全的生成对抗网络、基于物理的隐式可微渲染函数等。

元宇宙的发展将会带来许多潜在的商业机会和经济影响。例如，元宇宙中的数字资产可以为开发者和用户带来收入，从而促进元宇宙经济的发展。此外，元宇宙还可以为各种行业提供新的营销和广告机会，从而扩大市场规模。最后，元宇宙也可能会改变人类社会的基本结构和价值观，例如重新定义工作、教育和社交关系的本质。从元宇宙发展的角度看，生成式人工智能的意义重大。

6 智慧文档：赋能数字化转型

上海交通大学模式识别与智能系统博士郭丰俊进一步介绍了合合信息在智能文档处理方面的最新工作，深刻体现了前沿技术赋能数字化转型的源动力。郭丰俊老师主要讲解了

ROI提取：单区域提取、多区域提取
形变矫正：倾斜透视矫正、弯曲矫正
图像恢复：阴影去除、摩尔纹去除、反光去除
质量增强：清晰度提升、增强锐化
…

等众多文档智能处理技术及其应用场景，例如表格矫正、文件手写擦除、电子屏幕去除摩尔纹干扰等。

这些智能文档处理应用极大提高了信息的处理效率和精度。与人工处理相比，智能文档处理具有更高的处理速度和准确性，能够自动化地进行数据抽取、识别、分类和分析等操作。这样，企业和个人可以更快地完成文件处理，减少重复性工作和出错率，提高工作效率。同时，也有助于信息的共享和利用。智能文档处理技术可以将数据转化为结构化的信息，使得文档内容更容易被计算机识别和处理。这样一来，不同部门和人员可以更方便地共享文件和信息，并快速获取所需的数据，从而促进了企业内部信息的流动和协作。

听完郭丰俊老师的讲解，深刻体会到智能文档处理技术对数字化转型的推动作用。相信通过应用智能文档处理技术，企业和个人可以更好地管理和利用信息，提高生产和服务的质量和效率。

7 结语

我相信，在不久的将来，生成式人工智能会更智能化和自适应，它们能够更好地理解我们的语言和文化背景，并适应不同场景和情境；更加多样化和具有创造力，以图像、音频、视频等多种模态，为人类带来更加丰富多彩的体验。同时，人工智能会更加可信和安全，能够识别和纠正错误和偏见，并能够避免生成虚假信息和恶意内容。

最后，感谢合合信息这次以图文智能处理与多场景应用技术展望为主题的系列技术交流活动，让我近距离接触学术界、工业界领军人物带来的前沿技术和研究成果分享。近年来，合合信息在智能文字识别技术先后在ICDAR、ICPR等人工智能国际竞赛中斩获15项冠军，学术成果在CVPR、AAAI、ACL等顶会上发表，相关项目获中国图象图形学学会（CSIG）科技进步奖二等奖。

除了技术深度，在科技温度上合合信息也展现了自己的能力，例如钟鼎文识别、古彝文识别、甲骨文金文识别等，相信未来合合信息会给我们带来更多期待。

AI时代来临，如何把握住文档处理及数据分析的机遇

前言

在3月18日，由中国图象图形协会（CSIG）主办，合合信息、CSIG文档图像分析与识别专业委员会联合承办的“CSIG图像图形企业行”活动将正式举办，特邀来自上海交大、厦门大学、复旦、中科大的顶尖学府的学者与合合信息技术团队一道，以直播的形式分享文档处理实践经验及NLP发展趋势，探讨ChatGPT与文档处理未来。

所以本篇文章就来对此次直播内容做一个整理复盘，谈一谈直播的主要内容及观点探讨。

一、生成式人工智能与元宇宙

展会开场主要介绍了生成式人工智能与元宇宙相关的内容。

主要分为元宇宙生成式人工智能的思考、生成式世界模型 及 生成式模拟数字人几部分。

核心内容可以参考下面整理的脑图：

该部分主要介绍了生成式人工智能为构建基于视觉直觉的物理世界模型和虚拟数字人提供了可行的途径。

看完这部分让我感受最深刻的地方就是现在人工智能的发展的势头已经愈发不可收拾，自从OpenAI 发布的人工智能模型ChatGPT发布之后，在此让人工智能站在了风口之上。所以在当前这个背景下，我们要对这部分的内容多做研究，如果把握住这个机遇，未来肯定会对自身及社会的发展都有一个极大的好处。

未来，我们可以期待ChatGPT在更多领域得到应用，例如金融、医疗、法律等。这将有助于推动人工智能技术的发展，促进人机交互和智能化生产的进一步发展。

同时通过数学、物理、信息论、脑认知、计算机等学科交叉，进一步巩固生成式人工智能的基础理论。
“物理+数据”联合驱动。“虚拟+现实”深度融合。生成式AI直觉有望加速科学发现、物理合成、元宇宙构建。

二、面向图像文档的复杂结构建模研究

这部分主要介绍了文档智能结构化研究背景，基于部首建模的汉字识别、生成与测评，基于SEM的表格结构识别，基于文档预训练模型的篇章级文档结构化。

文档智能结构化研究背景部分

基于部首建模的汉字识别、生成与测评部分

基于SEM的表格结构识别部分

基于文档预训练模型的篇章级文档结构化

通过这部分内容可以让我们了解到在人工智能领域遇到图像文档时需要怎样处理，以及在面对复杂的结构时该怎样实现具体的功能逻辑等。

同时也让我们了解到一些汉字识别、文表格结构识别及文档结构化训练模型的原理和概念，这对于以后在使用人工智能与文档处理时有极大的意义。

三、大型语言模型的关键技术和实现

大型语言模型如今已经引起了公众的注意，短短五年内，Transforme等模型几乎完全改变了自然语言处理领域。此外，它们还开始在计算机视觉和计算生物学等领域引发革命。

而在说到语言模型时，那就不得不提到ChatGPT了。

ChatGPT 介绍

该段介绍来自“百度百科”
ChatGPT是美国人工智能研究实验室OpenAI新推出的一种人工智能技术驱动的自然语言处理工具，使用了Transformer神经网络架构，也是GPT-3.5架构，这是一种用于处理序列数据的模型，拥有语言理解和文本生成能力，尤其是它会通过连接大量的语料库来训练模型，这些语料库包含了真实世界中的对话，使得ChatGPT具备上知天文下知地理，还能根据聊天的上下文进行互动的能力，做到与真正人类几乎无异的聊天场景进行交流。ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

ChatGPT是一种基于人工智能技术的自然语言处理模型，它是由OpenAI公司开发的。它可以模拟人类的对话，并根据用户输入的问题进行回答。它使用了深度学习和自然语言处理技术，可以理解并生成自然语言。
这个模型的潜力是巨大的，未来可以在各个领域产生深远的影响。

ChatGPT的三个关键技术

情景学习（In-context learning）
大模型的涌现能力，改变传统学习范式。
改变了之前需要把大模型用到下游任务的范式。对于一些 LLM 没有见过的新任务，只需要设计一些任务的语言描述，并给出几个任务实例，作为模型的输入，即可让模型从给定的情景中学习新任务并给出满意的回答结果。这种训练方式能够有效提升模型小样本学习的能力。
思维链（Chain-of-Thought，CoT）
大模型的涌现能力，打破模型参数约束。
对于一些逻辑较为复杂的问题，直接向大规模语言模型提问可能会得到不准确的回答，但是如果以提示的方式在输入中给出有逻辑的解题步骤的示例后再提出问题，大模型就能给出正确题解。也就是说将复杂问题拆解为多个子问题解决再从中抽取答案，就可以得到正确的答案。
自然指令学习（Learning from Natural Instructions）
人在环路增强，对齐人类意图。
早期研究人员希望把所有的自然语言处理任务都能够指令化，对每个任务标注数据。这种训练方式就是会在前面添加一个“指令”，该指令能够以自然语言的形式描述任务内容，从而使得大模型根据输入来输出任务期望的答案。该方式将下游任务进一步和自然语言形式对齐，能显著提升模型对未知任务的泛化能力。

对话式大型语言模型（类ChatGPT模型）的定义如下：

ChatGPT无疑是语言模型中最亮眼的那颗星，其充分的满足对大型语言模型的各项定义。

构建一个大语言模型前可以先从下面四个维度来衡量大语言模型的能力：

Know Knowns：LLM 知道它知道的东西。
Know Unknowns：LLM 知道它不知道哪些东西。
Unknow Knowns：LLM 不知道它知道的东西。
Unknow Unknowns：LLM 不知道它不知道的东西。

说到这里，不得不提国内首个对话式大型语言模型 MOSS，从 2 月 21 日发布至公开平台，便引起高度关注。“对话式大型语言模型 MOSS 大概有 200 亿参数。和传统的语言模型不一样，它也是通过与人类的交互能力进行迭代。

MOSS 是基于公开的中英文数据训练，通过与人类交互能力进行迭代优化。目前 MOSS 收集了几百万真实人类对话数据，也在进一步迭代优化，也具有多轮交互的能力，所以对于指令的理解能力上，通用的语义理解能力上，和ChatGPT 非常类似，任何话它都能接得住，但它的质量没有 ChatGPT 那么好，原因在于模型比较小，知识量不够。

且ChatGPT的出现对人工智能的影响是不言而喻的，所以也被称为人工智能的里程碑。

四、ChatGPT与文档处理未来

关于人工智能领域也让我想到了关于文档图像处理的内容，在之前的文章中有写过一篇文章介绍了【图像处理技术】的一些相关内容。

文章中的技术是使用了合合科技的产品，这里也是再次给大家推荐一个平台：合合信息智能文字识别服务平台Textin

这是一个智能文字识别云服务平台，笔者在本文中用到的PS检测，摩尔纹去除也都是使用的该网站的一个产品实现的，也可以看到效果还是很棒的！

尤其是ChatGPT的出现让数据分析领域也得到了一个很大的帮助，对文档处理的能力也是更上一层楼。
ChatGPT可以帮助处理大量的文本数据，这将有助于数据分析领域的发展，也可以帮助企业和研究人员更加方便地处理文本数据、提取有用的信息。

而现如今随着人工智能的越发强大，之前做的不完善或者产品功能不够强劲的地方肯定可以做的更加完美。
相信相关行业领域的大能们也一定可以不辜负我们的期望，将其自身的产品打磨的更佳优秀，从而对大众带来福音。

总结

看完这场直播下来让我感触颇深，我知道人工智能领域在当今社会的发展速度是令人惊人的。
当看到OpenAI发布ChatGPT时，相信多数人还是会感受到很震惊的，没想到AI也可以如此的智能化。
但当GPT-4发布后更是向市场抛出一个重头戏，GPT-4的回答准确性不仅大幅提高，还具备更高水平的识图能力，且能够生成歌词、创意文本，实现风格变化。
此外，GPT-4的文字输入限制也提升至2.5万字，且对于英语以外的语种支持有更多优化。
而且结合直播中介绍的生成式人工智能与元宇宙，面向图像文档的研究等内容的介绍，让我们不得不感叹时代科技发展的魅力。
也是要时刻惊醒自己要与时俱进，多多学习新的技术与理念，不要做被时代丢下的弃子。

以上是关于AI未来十年新范式，生成式人工智能的挑战与机遇的主要内容，如果未能解决你的问题，请参考以下文章

AI未来十年新范式，生成式人工智能的挑战与机遇

目录

0 写在前面

1 什么是生成式模型？

2 生成式模型的挑战

3 自主智能新架构

4 持续学习与表征解耦

4.1 学习范式

4.2 学习架构

5 生成式AI与元宇宙

6 智慧文档：赋能数字化转型

7 结语

AI时代来临，如何把握住文档处理及数据分析的机遇

AI时代来临，如何把握住文档处理及数据分析的机遇

前言

一、生成式人工智能与元宇宙

二、面向图像文档的复杂结构建模研究

三、大型语言模型的关键技术和实现

ChatGPT 介绍

ChatGPT的三个关键技术

四、ChatGPT与文档处理未来

总结