GPT-4创造者：第二次改变AI浪潮的方向

Posted 2023-03-29 OneFlow深度学习框架

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了GPT-4创造者：第二次改变AI浪潮的方向相关的知识，希望对你有一定的参考价值。

OneFlow编译

翻译｜贾川、杨婷、徐佳渝
编辑｜王金许

一朝成名天下知。ChatGPT/GPT-4相关的新闻接二连三刷屏朋友圈，如今，这些模型背后的公司OpenAI的知名度不亚于任何科技巨头。

不过，就在ChatGPT问世前，OpenAI在GPT-3发布后的两年多时间里陷入沉寂，甚至开始被人唱衰。实际上，OpenAI在这期间正在潜心打磨GPT-3.5。

在OneFlow去年3月发布的《深度学习崛起十年：“开挂”的OpenAI革新者》一文中，OpenAI联合创始人、首席科学家就介绍了那些现在业内人尽皆知的人类反馈的强化学习（RLHF）、AI对齐以及多模态等关键名词和基本思路。

只不过，那时业内似乎都在忙着比拼更大的模型参数，无暇顾及抑或并不在意OpenAI正在研究的工作，看过这个对话的人很少。

当然，即使看了他们的技术思路，相信他们能走通的人就更少了，能去真正实践的也只有他们自己。直到ChatGPT大获成功，同行也只好羡慕嫉妒拍自己大腿，并说上一句：不就是已有技术的组合。然后眼睁睁看着OpenAI一脚油门，甩出同行几条街。

作为GPT系列模型背后“组装者”和推动者，毫不夸张地说，没有Ilya Sutskever，就没有现在的ChatGPT以及GPT-4。他正在改变世界。

更惊人的是，十年前，他已经改变过一次世界。那个引发深度学习新一轮革命浪潮的AlexNet也与Ilya有关，他是AlexNet的作者之一，后续随之而来的AlphaGo、GPT、CLIP、DALL-E和Codex都离不开他的贡献。

那么，从推动这一系列变革的科学家角度，他究竟如何看待当先ChatGPT、GPT-4模型的发展？他对AI的思考和坚定信念从何而来？OpenAI下一步研究方向是什么？他又如何看待AI对社会的影响？

在近期与英伟达CEO黄仁勋（GTC大会）以及Eye on AI播客的主持人Craig S. Smith的两场对话中，Ilya对此进行了解答。

对话中的Ilya像是AI研究者中的苦行僧。不同于Sam Altman和Greg Brockman两位创始人在交谈中表现出的异常敏捷的表达能力，Ilya的语速相对平缓很多，但他的思考要比说出口的内容更深远。当你问他能否解决GPT模型一本正经地胡说八道的问题时，他说，“让我们拭目以待”，这个回答让你感觉毛骨悚然的同时还会相信这家伙真的能做到。

就在业内其他团队正在研究怎么研发类ChatGPT追赶甚至“弯道超车”OpenAI时，GPT-5或许已经在路上了。在这之前，最好看看Ilya怎么思考AI及其未来发展方向，或许会启发我们提出更好的、不一样的发展路径。

OneFlow以QA形式对上述两场对话进行了编译整理，对于问题以下不作具体区分。（Craig的播客经授权后由OneFlow编译，内容转载请联系OneFlow获得授权。播客：https://www.eye-on.ai/）

1
AI界的“iPhone时刻”

Q：ChatGPT就是AI界的“iPhone时刻”，你是如何实现这一历史性转变的？

A：最开始，我们也不清楚该如何开展整个项目，而且这个领域与现在的发展走向也完全不同。2016年左右开始创办OpenAI时，这一领域的研究者还很少，我们当时的同事大多来自Google/DeepMind，他们有从业经验，但思路相对而言比较狭窄，有所束缚。

那时我们有两个大的基础想法，它们的影响一直延续到今天。第一个想法是通过压缩进行无监督学习。现在看来这是理所应当，但在2016年，无监督学习是一个还没有被解决的问题，也没有任何科学家有相关想法。

Yann LeCun当时到处说这是一个技术上的瓶颈。压缩也不是人们经常会谈到的问题，但ChatGPT实际上确实压缩了训练数据，我们通过不断训练自回归生成模型实现了数据压缩。如果数据被压缩得足够好，就必须要提取其中存在的所有隐藏信息，这就是关键所在。

这也直接导致了我们研究情绪神经元。OpenAI科学家Alec Radford训练LSTM来预测亚马逊评论的下一个字符时发现，如果你预测下一个字符足够好，LSTM就会有一个与情绪对应的神经元。这就很好地展示了无监督学习的效果，也验证了下一个字符预测的想法。这个发现对我们的影响很大。

但哪里能得到无监督学习的数据呢？无监督学习的难点不在于数据，更多关于为什么要这么做，以及意识到训练神经网络来预测下一个字符是值得追求和探索的。

然后Transformer出来后，我们立即发现这个模型就是我们想要的，于是做出了GPT-1。

第二个想法就是强化学习。我有一个很强的信念是“越大越好”，OpenAI的目标是找到扩展的正确路径。我们完成的第一个真正的大型项目是实时战略游戏DOTA 2。当时我们训练了一个强化学习的Agent来与自己对抗，目标是达到人类玩家的水平。

从DOTA的强化学习转变为人类反馈的强化学习，再加上GPT技术基座，成就了今天的ChatGPT。

Q：有人认为，ChatGPT只是一个大型语言模型，但在我看来，那背后有自己的复杂系统。能否介绍一下你们是如何通过强化学习进行精调的？ChatGPT背后是否有多种系统进行支撑？

A：当我们训练大型神经网络以准确预测互联网上大量不同文本的下一个词时，我们在做的其实是在学习一个世界模型。从表面看，神经网络只是在学习文本中的统计相关性，但实际上，学习统计相关性就能把知识压缩得很好，神经网络所学习的是，它在生成文本过程中的一些表述，文本只是这个世界的一个映射，所以神经网络学习的是这个世界的多个方面的知识。

这就是它在准确预测下一个词的任务中所学习到的，对下一个词的预测越准，还原度越高，你看到的文本的准确度就越高。这就是ChatGPT模型在预训练阶段所做的，它尽可能多地从世界的映射（也就是文本）中学习关于世界的知识。

但这不能说明神经网络会表现出人类希望它做出的行为，这就需要第二阶段的微调、人类反馈的强化学习以及其他形式的AI系统的协助，这个阶段做得更好，神经网络越就越有用、可靠。

Q：多模态为GPT-4带来的最大突破是什么？

A：多模态非常有意思。第一，多模态在视觉识别上特别有用。因为整个世界是视觉化的，人类和其他动物也是视觉动物，人脑1/3的灰质都是用于视觉的，如果没有视觉，神经网络的用处不会达到它应有的程度，GPT-4能够很好地去理解这些图像。

第二，除了从文本中学习外，我们还能从图像中学习关于这个世界的知识，尽管这看起来还不太明确。一个人可能一生之中会听到10亿个词，对我们来说，有尽可能多的信息来源很重要。

同样，这也适用于神经网络。即使是视觉信息，也会通过文本缓慢传播，如果再加上视觉信息，模型就能学到文本中原本没有的信息。

Q：相比ChatGPT，GPT-4在哪些方面有所改进？

A：ChatGPT版本有时会错误地理解问题，给出的回答有的很不理想，但GPT-4好多了，还能会以更快的方式去解决难题，简而言之，就是可靠性更高了。

GPT-4是在ChatGPT的基础上进行改进的。GPT-4的训练大约始于6-8个月前，它的预测能力更加准确，这得益于其更好的神经网络，使其能够更加精准地预测下一个单词，并深入理解文本。

GPT-4为什么能更精准地预测下一个单词，为什么这会带来更深的理解能力？就像你读侦探小说时，情节、事件以及其他线索都不清楚，使你无法准确预测故事结局。但当你阅读小说的最后一页时，就可以很容易推测出凶手是谁，这是因为你在阅读过程中积累了大量的知识和经验。同样地，GPT-4的更大训练数据和神经网络可以帮助它更好地理解文本，从而更准确地预测下一个单词。

Q：从ChatGPT到GPT-4，有哪些能力让你觉得很惊艳？

A：一方面是模型的可靠性，另一方面，最让我觉得惊艳的就是，这些模型真的有效。我在AI领域差不多有二十多年了，神经网络从最开始毫不起眼的工作慢慢演进，通过更大的数据集训练之后，变得越来越强，尽管基础算法不同，但训练方式是类似的。我经常会感叹于人工神经元的想法居然真的有效。

“智能”背后的工作原理

Q：你是何时对计算机科学感兴趣的？这种兴趣来自最初的一时冲动？还是由脑科学、神经科学等兴趣引发的？

A：我出生于俄罗斯，在以色列长大，十多岁时随父母移民到了加拿大。根据父母的说法，我从小就表现出了对AI的兴趣。我一直想搞清楚意识（consciousness）这个东西，对一切能够帮我了解意识的东西感兴趣。在这方面，AI似乎是个很好的切入点。

17岁时，我就开始跟着Geoffrey Hinton在多伦多大学做研究了。当时，深度学习是人工智能领域最重要、最难接触的部分，我一直想做这方面的研究。

现在，我们理所当然地认为计算机是可以学习的，但在2003年，情况恰恰相反，AI领域的最大成就是国际象棋引擎深蓝（Deep Blue）。当时AI的发展程度还比较低级，就拿国际象棋来说，AI只是通过简单的方法寻找棋子的最佳走位。

这种方法难以用于实战，因为当时人们还没有搞清楚该怎么让AI学习，但我对此很感兴趣，幸运的是，Geoff是多伦多大学的教授，我有机会在学校见他，见面后一拍即合，我很快加入了他的团队。

Q：你只是单纯地对机器学习感兴趣，还是与Geoff一样，希望借助机器学习来了解大脑的奥秘？

A：AI涵盖的领域非常广泛，人们入行AI领域的动机也各有不同，而我想要弄清楚“智能”背后的工作原理。

现在，对这个问题我们已经有了一些答案。“智能”的背后是一张大型神经网络，我们对神经网络的工作原理也有了一定程度的了解。但在当时，虽然神经网络已经存在，却没人知道它的用处。

所以“智能”到底是如何运作的？到底该怎么做才能让计算机变得稍微智能一点？

那时的我有一个非常明确的想法：在AI领域作出真实、有效的贡献。当时AI届看似人多，贡献也层出不穷，但却没有取得任何实质性的成就，就像一片荒芜之地，看不到希望。这些就是我最初从事AI的动力。

Q：Geoff曾说，卷积神经网络（CNN）的突破促使你参加了ImageNet竞赛，而Alex用他高超的编程技能训练了神经网络。

A：简而言之，当时我意识到，如果在一个足够大的数据集上训练大型深度神经网络，让这个神经网络去处理复杂任务（比如视觉等），只要坚持训练下去，就能成功。

这背后的逻辑是：人脑是拥有神经元的神经网络，可以快速处理视觉等复杂任务，可以得出，其它某些神经网络也可以很好地做到这一点。因此，我们需要一个较小但相关的神经网络，并用数据对其进行训练。计算机内部最好的神经网络将与执行这项任务的神经网络进行关联。当时的一种说法是，大型深度神经网络可以完成这一任务。

另外，我们要有训练工具（Geoff的实验室完成了这部分的技术工作），将这两点相结合（一是神经网络要足够大，确保训练时正常运行；二是指定解决方案的数据），我们就可以训练神经网络，ImageNet竞赛刚好满足了我们的需求。Alex有快速卷积核，ImageNet拥有足够大的数据，而我们抓住了这个机会，做了一些前所未有的尝试，并取得了成功。

Q：Geoff曾提出一个非常有趣的观点：与人脑相比，具有大量参数的大型模型，尤其是大型语言模型，可以用相对较少的参数处理大量数据。相比之下，人类大脑有数以万亿计的参数，但处理的数据量相对较小。你是否思考过这个问题？

A：特别是在模型训练的早期阶段，现有神经网络技术结构确实需要大量数据。然而，在模型训练的后期阶段，对数据的需求会逐渐减少，这也是模型能够快速学习的原因。虽然模型的学习速度不及人类，但已经相当迅速了。

从某个角度来看，我们并不一定关心是否需要大量数据才能实现目标。但从更普遍角度，从较少的数据中学到更多知识是可能的，尽管这需要一些富有创意的想法。

从少量的数据中学习更多知识将会开启其他可能性，使我们能够向AI传授其缺乏的技能，并且更易传递我们的期望和偏好，以更精确地控制其行为。虽然经过训练后的语言模型可以快速学习知识，但还有更多的机会可以利用。

扩展的对象更重要

Q：2017年，《Attention Is All You Need》一文提出了自注意机制和Transformer模型。那么GPT项目的研发是如何开始的？

A：在OpenAI早期，我们的工作重心是“预测下一件事就是你所需的一切（predicting the next thing is all you need）”。当时，我们想利用有限的神经网络去预测下一个单词、像素，在我们看来预测就是压缩（compression）。我们想知道预测下一个单词能发展到什么程度，想知道预测能否解决无监督学习。在GPT之前，无监督学习就是机器学习的最高目标，是大家心目中的圣杯。

虽然现在人们已经彻底掌握了无监督学习，它已不再是人们关注的焦点，但它曾经确实是机器学习的最高目标，是一大难点。当时，我对这方面的研究非常感兴趣，因为足够好的预测可以帮助我们进行无监督学习，理想状态是实现全部数据集的无监督学习。

当时，我们使用的是递归神经网络（RNN），但它无法胜任上述任务。《Attention Is All You Need》论文发表以后，我们很快意识到Transformer可以解决当前神经网络学习的长程依赖（long-term dependencies）的局限问题。

这其实是技术问题，但我们立刻切换到Transformer。就这样，初期GPT开始萌芽、发展起来，有了Transformer，GPT运行越来越顺利，变得越来越大，随后我们意识到，可以让它一直不断扩大，就这样最终发展到了GPT-3，并走到了现在这个阶段。

Q：Richard Sutton（强化学习先驱）一直强调“扩展（scale）是我们所需要的一切”，而不需要新的算法。这一观点是否对你有影响或者是你们想到一块儿去了？

A：他的想法并没有影响到我。尽管Rich的《惨痛教训（The Bitter Lesson）》一文非常有说服力，我们也很乐意看到其他人的类似想法，但我认为，这篇文章的观点其实有点夸大其词，或者至少人们从中得出的观点“不管做什么，扩展就对了”是夸张的说法。这种说法是不正确的。

我们需要扩展一些可以从中受益的特定事物。深度学习让我们首次实现了对扩展的有效利用，并从中获得了回报，这是深度学习的一大突破。在此之前，大型计算机集群的作用是什么？可能仅限于天气模拟、物理模拟、电影制作等等，除此之外没有任何真实的需求。

事实上，深度神经网络越大、训练数据越多，运行的效果就越好，这是第一个有趣的扩展案例。将来我们需要扩展的事物可能会出现变化，这种变化也许更有利于扩展，但现在我们还不知道变化的规模，在搞清楚它的规模之后，你可能又会惊讶于它的变化之微小。

总之，扩展的对象十分重要。现在，我们只是找到了一个能够获得回报的扩展对象。

Q：听你说过，需要更快的处理器才能进一步扩展模型。模型扩展（scaling of models）似乎是无止境的，但训练这些模型所需的计算能力已经接近极限，或者至少达到了社会公认的极限。

A：我记不太清你提及的具体评论，但在处理器方面，越快越好的逻辑不言而喻，我们确实需要更快、更多的处理器。不过，随着计算能力的需求不断提高，对计算资源的投入成本也在持续上升。

问题的关键不在于成本是否高昂，而在于我们能否通过投入成本得到超过其本身的价值。如果你投入了巨大的成本但没有获得任何价值，那么这样的代价肯定不值得。但是，如果你获得了非常有用、极具价值的东西，能够解决许多问题，那付出的成本就是值得的。

大型语言模型的局限性

Q：目前，大型语言模型的局限性在于，它们所拥有的知识只限于它们所训练过的语种，而大多数人类知识都是非语言性的。它们的目标是满足prompt的统计一致性（statistical consistency），而对语言所涉及的现实没有基本的理解。

A：其实，很难确定什么是语言模型的局限性。比如，两年前人们曾对当时的局限性高谈阔论，但现在的局限性跟当时相比又完全不同。因此相比于谈论局限性，将注意力放在当下的发展更为重要，毕竟谁又能保证目前的局限性还会在两年后仍制约着语言模型的发展呢？至少我没这个自信。

另一方面，有人认为模型只是在学习统计规律，因此它们不知道世界的本质究竟是什么。但我认为，学习统计规律比我们眼睛看到的更重要。之所以现在才有这个观点，是因为我们还没有（至少大多数人没有）真正在神经网络上花费很多时间，而神经网络在一定程度上是统计学。

什么是统计模型？其实只是拟合一些参数，比如真实发生的事情。预测也是一种统计现象，不过需要了解产生数据的真正底层过程才能更多地对数据进行压缩，进而完成预测。在这个过程中，你需要更多地了解这个产生数据的世界。

随着生成模型变得越来越好，理解程度也会越来越高，它们对整个世界的了解会让我们为之震惊。而其中诸多精妙之处，却不止存在于现世，那是一个透过文本镜头才能看到的世界。

它们了解到的世界是文字镜头映射出来的世界：学习互联网上人类生成的各类文本。但这些文本其实也表达了整个世界。

一个很有意义和启发性的例子是，Sydney是由ChatGPT支持的Bing衍生出的一种模式，当用户对Sydney说，Google是比Bing更好的搜索引擎时，Sydney就会变得好斗、咄咄逼人。

那么，我们该如何看待这种现象？这又意味着什么？有人会说，它只是在预测人类在这种情况下会怎么做。没错，人类确实会这么做，但这也许意味着用心理学语言开始理解神经网络的行为。

Q：事实上，神经网络有时会产生“幻觉”，而语言模型在学习世界、思想、概念等方面的表现要好得多，但输出方面却不尽人意，当我向ChatGPT询问关于我的个人信息时，它识别出我是一名记者，但它却给我冠上了很多没有获得过的荣誉。在你们未来的研究中，是否有措施来解决这个问题？

A：关于这一过程需要理解的是：在预训练阶段，我们只是训练语言模型，希望学习关于这个世界的一切；在人类反馈的强化学习（RLHF）阶段，我们关注的是输出结果。如果输出不合适或者不合理时，就会停止这样的输出。模型很快就能学会生成恰当的输出。

现在的问题在于输出水平，其实预训练阶段的情况并非如此。神经网络确实有编造回答的倾向，即使是ChatGPT也会时不时的胡乱编造，这极大地限制了模型的实用性。我希望能通过改进强化学习反馈步骤来阻止神经网络产生“幻觉”。

此时你可能会问，它们真的会学习吗？我的答案是：让我们拭目以待。

Q：如果我告诉ChatGPT，它的回答有误，那么这是在对其进行训练，还是内部会给它一些惩罚或者奖励，以便下次回答得更加准确。

A：我们现在的做法是雇佣人工训练员来教神经网络（比如ChatGPT）如何表现。到目前为止，他们指定所需行为的方式略有不同。但事实上，你所描述的就是正确的训练方式：只需与它互动，它会从你的反应中推断自己的回答是否让你满意。

因此，输出结果不好，ChatGPT下次就应该做些不同的事情。虽然“幻觉”是一个很大的问题，但这种方法完全可以解决这些问题。

Q：Yann LeCun（图灵奖得主，CNN网络发明者）认为，大型语言模型所缺失的是一种非语言的基础世界模型（underlying world model），语言模型的构建可以对其进行参考。我想听听你对此的看法，以及你是否在这方面有所探索。

A：我看过他的提议，其中有许多想法，并且与当前技术范式可能存在一些细微差异，但在我看来，这些差异并不是非常显著。

首先，对于一个系统来说，拥有多模态的理解是可取的，这样可以使其从多方位（不仅仅从文本）来了解世界、了解人类以及与之相关的情况，如此一来，系统也能更好地理解它应该解决的任务，满足人类的需求。

在这方面，我们已经做了相当多的工作，比如Clip和Dall-E，它们都朝着多模态方向发展。这并不是一个非此即彼的情况，有人说如果没有视觉，不从视频中理解世界，就不能处理这方面的工作。

但我想说的是：有些东西从图像和图表中学习起来要容易得多，但我们仍然可以通过文本来进行学习，只是学习速度要慢一点。

以颜色举例。虽然我们不能从文本中学习颜色的概念，但每个神经网络都通过“嵌入（embeddings）”表示单词、句子和概念，这些embeddings也就是高维向量，可以知道什么与什么类似，神经网络如何看待这个概念或那个概念。所以机器可以通过嵌入向量来判断颜色，紫色比红色更接近蓝色，但比橙色更接近红色，如果有视觉感知，颜色之间的差异一眼就可看出，但仅从文本来分辨，可能需要更长的时间，也许你知道怎么交流，已经了解了单词和语法，但也需要一段时间才能真正理解颜色。

因此，多模态非必要，但绝对有用。虽然这是一个很好的发展方向，但我并不认为必须在当前方案和多模态中二选一。

Yann LeCun的论文中提到：最大的挑战之一是，预测具有不确定性的高维向量。我们需要采取特定方法来解决这个问题。我发现，其实当前的自回归Transformers已经具有该属性，但论文中没有承认这一点。

举两个例子。一是给定某书中的一页，预测下一页。这有很多种情况，是一个非常复杂的高维空间，但自回归Transformers能处理得很好。对于图像处理也是如此。比如OpenAI在研发iGPT时，将Transformer应用于像素预测，能以非常复杂和微妙的方式生成图像，效果非常好。它有很不错的无监督表示学习能力。

Dall-E 1的情况也是一样。因此，论文中强调当前方法无法预测高维分布的部分是错误的，那绝对可以胜任。

Q：现在有一种观点：安排一批人类训练员与大型语言模型（如ChatGPT）一起工作，并通过强化学习对其进行指导。仅从直觉来看，这并不能有效教会模型理解潜在现实（underlying reality）。

A：我不同意这个说法。首先，我们的预训练模型已经掌握了关于潜在现实的必要知识，并对语言及其产生过程有了深入了解。

也许我需要再次强调一点。在大型语言模型中，学习到的文本数据是对真实世界进程（real-world processes）的压缩表示，其中包含有关人类思想、感受，以及人类所处环境和人际互动等方面的信息。

一个人可能处于不同情境，而这些情境所涉及的信息是压缩进程的一部分，并由神经网络表示，以生成新的文本内容。语言模型越好，生成模型的表现越好，保真度越高，就能更好捕捉这个进程。要想构建一个高质量的系统，只需遵循“如果方法有效，则继续使用”的策略。

那些指导模型学习的训练员团队本身也在利用AI来辅助他们的工作。这些工具能够高效地完成大量任务，但仍需要人类进行监督和评估，以确保结果的高可靠性，这与人类的教育过程没什么不同。

我们会积极寻求方法来提高模型的效率和准确性，以构建表现良好的语言模型。为了确保模型能够识别幻觉（hallucination），需要进行额外的训练。一旦模型掌握了该技能，就可以将其用于处理业务需求了。而强化学习人类训练员或者其他类似的方法能够教会模型辨识幻觉。虽然目前还没有确切的结论，但我们很快就会找到答案。

Q：你近期关注的研究方向是什么？

A：提高模型的可靠性和可控性，加快模型从少量数据中学习知识的速度，并降低对人工指导的依赖，避免出现“幻觉”。我认为这一系列问题密不可分。此外，还需要注意这些问题所涉及的时间跨度。

AI对社会管理的影响

Q：你谈过AI给民主带来的影响。若是拥有充足的数据和足够大的模型，就可以用这些数据来训练模型以获得让所有人都满意的最优决策。你觉得这会帮助人类进行社会管理吗？

A：我们还无法预测政府将如何利用这种技术来获取各种建议，不过在民主问题上，未来可能会出现这样一种情况：由于神经网络无处不在且对社会产生巨大影响，我们将不得不建立某种民主流程，让公民向神经网络提供信息，包括他们希望的事务状态、行为方式等。

这可能是一种高效的民主形式，即我们可以从每个公民身上获取更多的信息并进行汇总，然后指定这些系统如何采取行动。当然，这会引发许多问题。

当前的模型还有很多提升空间，未来，特别是在训练和使用模型方面会发生一些变化，从而使模型能够更好地解决这类问题。

Q：按你所说，每个人都有机会输入数据，然而这也牵涉到世界模型的问题。你是否认为AI系统最终可以变得足够强大，能够理解某种情境并分析所有的变量？

A：分析所有变量意味着需要综合考虑情境中的所有因素，确定重要变量，并进行深入研究。这个过程类似于读书，我可以选择读一百本书，也可以仔细阅读一本书，这样就可以获得更多。这种方法在一定程度上是值得推崇的，但也许在某种程度上，理解所有事情是基本不可能的。

举个更简单的例子：当社会或公司面临复杂情况时，即使对于中等规模的公司来说，处理大量数据和分析信息的任务也超出了个人的能力范围。然而，通过正确地构建AI系统，就可以在各种情境下获得极大的帮助。

其他人都在看

欢迎Star、试用OneFlow: github.com/Oneflow-Inc/oneflow/http://github.com/Oneflow-Inc/oneflow/

多模态AI浪潮来袭，或造福数亿视障人群

外卖、打车、社交、视频……现代社会海量的应用服务着人们的工作和生活，让人非常方便地就能体验到丰富的物质和精神享受。但与此同时，“障碍人群”的需求也值得关注。

第二次全国残疾人抽样调查结果、国家统计局2021年第7次人口普查数据，以及中国互联网络信息中心官网等综合显示：我国有1691万视障人士、2780万听障人士、2977万肢体残障人士、2.6亿60岁及以上老年人、4.16亿非网民，以及大量的认知障碍人士。

其实，进一步说，“非障碍人群”可能也会遇到情境性障碍和临时性障碍，比如突如其来的伤病，在伤病期间，部分功能的受损，使其也临时成为“障碍人群”。

对“障碍人群”给予更多的关注和必要的帮助，不仅是社会文明进步的标志，也体现出社会的平等、公平。因此，如何让“障碍人群”平等享受现代文明，成为当下推动社会文明进步的关键命题。

信息无障碍：让每一个人都平等享受现代文明

对于“障碍人群”而言，科技所带来的改变可能是颠覆性的，将会显著提高TA们在社会活动中的独立性和生活质量，“信息无障碍”就是希望借助科技的力量，让“障碍人群”平等地享受现代文明。

2020年，工业和信息化部、中国残联联合发布的《关于推进信息无障碍的指导意见》是这样定义信息无障碍的：

“信息无障碍是指通过信息化手段弥补身体机能、所处环境等存在的差异，使任何人（无论是健全人还是残疾人、无论是年轻人还是老年人）都能平等、方便、安全地获取、交互、使用信息。”

我们欣喜地看到，现在越来越多的机构、组织、企业，正在借助科技的力量，为每一个的生活带来改变。

信息无障碍最具挑战课题：AI助盲

据世卫组织统计，全球至少有22亿人视力受损或失明。因此，在诸多“障碍”中，针对“视觉障碍”的科研和应用探索尤为广泛和深入。这其中，在众多现代化的技术中，AI助盲成为学术界和产业界关注的焦点。

一般来说，视障人群认知外界世界的渠道主要是听觉、嗅觉和触觉，这些其他模态的信息一定程度上帮助视障人士缓解了视力缺陷带来的问题。但在人类获取的外界信息中，来自视觉的占比高达70%~80%，因此直接基于AI构建机器视觉系统，帮助视障患者拥有对外界环境的视觉感知与视觉理解能力，无疑是更为有效的解决方案。

当下，某些单模态AI，图像识别已经超越了人类水平，但随着各种单模态技术的不断成熟，不同模态之间如何交互成为算法研究的瓶颈。为了提升AI模型的泛在能力，使机器具备跨模态的图像解析与理解能力，以“机器视觉+自然语言理解”为代表的多模态算法成为近年的研究焦点。而这种技术一旦成熟并应用于AI助盲领域，将能够造福数以亿计的视障人群。

AI助盲，从盲人视觉问答任务谈起

第一人称视角感知技术，对于AI助盲来说意义重大。它无需盲人跳出参与者身份去操作智能设备，而是从盲人的真实视角出发，帮助科学家们构建更符合盲人认知的算法模型，促进了盲人视觉问答任务的出现。

盲人视觉问答任务是学术界研究AI助盲的起点和核心研究方向之一，但在现有技术条件下，该任务的精度提升面临更大困难。一方面，盲人的问题类型更复杂，包括目标检测、文字识别、颜色、属性识别等各类问题，比如说分辨冰箱里的肉类、咨询药品的服用说明、挑选独特颜色的衬衣、介绍书籍内容等。另一方面，由于盲人在拍照时，很难把握手机和物体间的距离，经常会产生虚焦的情况，或者缺失关键信息，大大增加了有效特征提取难度。同时，现存的大部分视觉问答模型是基于封闭环境下的问答数据训练实现的，受样本分布限制严重，难以泛化到开放世界下的问答场景中，需要融合外部知识进行多段推理。

盲人视觉问答数据

其次，盲人视觉问答研究发现，视觉问答会遇到噪声干扰的衍生问题。如何准确定位噪声并完成智能推理，也面临重大挑战。盲人由于不具备对外界的视觉感知，因此在图文配对的视觉问答任务中，往往会产生大量错误。例如，盲人去超市购物时，由于商品外观、触感相似，很容易出现错误，比如拿起一瓶甘草片，却询问胃肠安一天吃几粒。这种语言噪声往往会导致现有AI模型失效，需要AI能够具有从庞杂的环境中分析噪声与可用信息的能力。

最后， AI助盲系统不应仅仅解答盲人当下的疑惑，还应该具备智能意图推理与智能信息呈现能力。智能意图推理技术的研究重点在于，通过让机器不断学习视障人群的语言和行为习惯，来推断其想要表达的交互意图。而由于使用者的表达方式和表达动作在时间和空间上都存在随机性，由此引发了交互决策的心理模型同样带有随机性，因此如何从连续随机的行为数据中提取用户输入的有效信息，设计出动态非确定的多模态模型，从而实现对不同任务的最佳呈现，非常关键。

毋庸置疑的是，在上述基础研究领域的重大突破，才是AI助盲技术早日落地的关键所在。来自浪潮信息的前沿研究团队正在通过多项算法创新、预训练模型和基础数据集构建等工作，推动AI助盲的进一步研究。

盲人视觉问答——看到盲人的需求

卡内基-梅隆大学等机构构建了一个盲人视觉数据库“VizWiz”，并发起全球多模态顶级视觉问答挑战赛VizWiz-VQA盲人视觉问答挑战赛，其模式是给定一张盲人拍摄的图片和问题，然后要求给出相应的答案。

目前，浪潮信息前沿研究团队提出了多项模型优化方法，在VizWiz-VQA上，实现了算法精度领先人类表现9.5%，在AI助盲领域获得世界冠军两项、亚军两项。

在VizWiz官网上公布的2万份求助中，盲人最多的提问就是想知道他们面前的是什么东西，而这些物品没法靠触觉或嗅觉来做出基本判断，例如 “这本书书名是什么？”。这需要模型拥有较强的图像文本识别能力，而盲人拍摄图片难以保证图像的方向，为此浪潮信息前沿研究团队提出自监督旋转多模态模型，通过自动修正图像角度及字符语义增强，结合光学字符检测识别技术解决“是什么”的理解问题。

此外，盲人除了想知道眼前物体是什么及其属性是什么之外，通常还需要知道眼前物体的用途。然而盲人拍摄的画面通常是模糊、不完整的，这导致一般算法难以判断目标物体的种类及用途。因此盲人问答模型需具备更充分的常识能力，可以依据低质量图像中残缺的信息推理用户真实意图。为此，浪潮信息前沿研究团队提出了答案驱动视觉定位与大模型图文匹配结合的算法，并提出多阶段交叉训练策略。推理时，将交叉训练后的视觉定位和图文匹配模型用于推理定位答案区域；同时基于光学字符识别算法确定区域字符，并将输出文本传送到文本编码器，最终通过图文匹配模型的文本解码器得到最终答案。

多模态视觉问答模型解决方案

问答交互噪声定位——看清盲人的需求

当前，视觉定位研究应用落地的最大障碍之一是对于噪声的智能化处理。一般来说，文本描述往往有口误、歧义、修辞等噪声，而文本噪声会导致现有AI模型失效。

为此，浪潮信息前沿创新团队探索了真实世界中，由于人类语言错误导致的多模态失配问题，首次提出视觉定位文本去噪推理任务FREC，并构建了首个可解释去噪视觉定位模型FCTR。

FREC要求模型正确定位噪声描述对应的视觉内容，并进一步推理出文本含噪的证据，提供了3万图片和超过25万的文本标注，囊括了口误、歧义、主观偏差等多种噪声，还提供噪声纠错、含噪证据等可解释标签。

FCTR则实现了噪声文本描述条件下精度较传统模型提升11个百分点。该研究未来可广泛应用于机器人助理客服、大数据检索、数字机器人、育儿等多模态人机交互与论断推理等场景。

FCTR结构图

令人兴奋的是，FREC、FCTR这两项证明AI具有更深层次理解潜力的研究成果，已发表在多媒体领域顶级会议ACM Multimedia 2022，向全球的AI从业者分享来自中国的科技善举。

智能交互研究——看懂盲人的心声

此外，为了让AI能够更懂盲人，浪潮信息前沿创新团队还在探索AI在图像和文本的基础上与人进行思维交互的能力，通过建立逻辑链在庞大的知识库中进行检索，对图像和文本的已有内容实现扩展。

为此，浪潮信息前沿创新团队构建了可解释智能体视觉交互问答任务AI-VQA，同时给出首个智能体交互行为理解算法模型ARE（encoder- decoder model for alternative reason and explanation），这为科研工作者开展相关研究探索提供了基础数据集和基础模型。

ARE结构图

AI-VQA提供了开源数据集，里面包含超过14.4万条大型事件知识库、全人工标注1.9万条交互行为认知推理问题，以及关键对象、支撑事实和推理路径等可解释性标注。

ARE预训练模型首次实现端到端的交互行为定位和交互行为影响推理，基于多模态图像文本融合技术与知识图谱检索算法，实现了具备长因果链推理能力的视觉问答模型。

科技向善旨在将科技赋能人类社会可持续发展，只有全面覆盖到所有人群，实现信息无障碍，才是真正的“最美科技”。浪潮信息前沿研究团队在AI助盲领域所做的努力，为此做出了表率。

面向未来，AI助盲领域的“最美科技”多模态算法，有望实现应用场景的更多落地，比如在AI医疗诊断、AI反诈、AI灾情预警、AI智能政务等方面，为社会创造更多的价值。

以上是关于GPT-4创造者：第二次改变AI浪潮的方向的主要内容，如果未能解决你的问题，请参考以下文章