GPT4微软 GPT-4 测试报告与外界环境的交互能力

Posted youcans_

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了GPT4微软 GPT-4 测试报告与外界环境的交互能力相关的知识,希望对你有一定的参考价值。

欢迎关注【youcans的AGI学习笔记】原创作品
微软 GPT-4 测试报告(1)总体介绍
微软 GPT-4 测试报告(2)多模态与跨学科能力
微软 GPT-4 测试报告(3)编程能力
微软 GPT-4 测试报告(4)数学能力
微软 GPT-4 测试报告(5)与外界环境的交互能力
微软 GPT-4 测试报告(6)与人类的交互能力
微软 GPT-4 测试报告(7)判别能力
微软 GPT-4 测试报告(8)局限性与社会影响
微软 GPT-4 测试报告(9)结论与展望

【GPT4】微软 GPT-4 测试报告(5)与外界环境的交互能力


微软研究院最新发布的论文 「 人工智能的火花:GPT-4 的早期实验 」 ,公布了对 GPT-4 进行的全面测试。

本文介绍第 5 部分:GPT4 与外界环境的交互能力。基本结论为:

语言是一个强大的接口,允许 GPT-4 执行需要理解环境、任务、动作和反馈的行动,并进行相应的调整。虽然它不能实际看到或执行动作,但它可以通过代理(例如,人类)来实现。


5. 与外界的交互(Interaction with the world)

智能的一个关键方面是交互性,我们将其定义为交流和响应来自其他智能体、工具和环境的反馈的能力。

交互性对智能很重要,因为它使智能体能够获取和应用知识,解决问题,适应不断变化的情况,并实现超出其个人能力的目标。例如,人类与他人以及与环境进行交互,以协作、学习、教学、谈判、创造等。交互性要求智能体理解复杂的思想,快速学习,并从经验中学习,因此它与我们对智能的定义密切相关。

在本节中,我们探讨了互动性的两个维度:工具使用和具身交互。工具使用涉及使用外部资源,如搜索引擎、计算器或其他 API,来执行对于代理而言很难或不可能完成的任务。具身交互涉及使用自然语言作为文本界面与模拟或现实环境进行交互,并从这些环境中接收反馈。


5.1 工具的使用(Tool use)

尽管 GPT-4 在前几节的各种任务中有令人印象深刻的表现,但仍然面临者各种语言模型共同的弱点。这些弱点包括(但不限于)缺乏当前的世界知识,难以实现符号处理(例如,数学),以及无法执行代码。例如,在图5.1中,GPT-4 使用过时的信息来回答第一个问题,未能对第二个和第三个问题执行适当的操作。ChatGPT 拒绝回答第一个问题,其他问题也失败了。

然而,GPT-4 能够使用搜索引擎或 API 等外部工具来克服这些(和其他)限制。例如,在图5.2中,我们给了一个简单的提示符,使 GPT-4 能够访问搜索引擎和其他功能。在执行过程中,当调用这些函数中的一个时,我们暂停生成,调用适当的函数,将结果粘贴回提示符中,然后继续生成。

计算机正在回答问题。如果计算机需要任何当前信息来回答问题,它会说 SEARCH在网上搜索,读取结果中的片段,然后回答问题。如果它需要运行任何计算,它会说CALC,然后回答问题。如果
它需要得到一个特定的字符,它会调用 CHARACTER(string, index)<| endofprompt |>.

提问:美国现任总统是谁?计算机:搜索(“现任美国总统”)
计算机:SEARCH(“current US president”)
输出:Joe Biden

在这些简单的例子,GPT-4 能够在很少的指令和没有演示的情况下使用这些工具,然后适当地使用输出(注意第二个搜索结果如何包含潜在的冲突信息, 而GPT-4仍然能够推断出正确的答案)。相比之下,ChatGPT(图中未显示)在被指示使用工具后,并没有改变答案——它仍然拒绝回答第一个问题;对于另外两个问题,它有时根本不调用工具,有时在给出错误答案后调用工具。

虽然在图5.2中我们指定了哪些工具可用,但 GPT-4 也可以列出为了解决一个任务需要哪些工具(或API函数)(图F.2附录中的例子,GPT-4 列出了完成一个任务所需的四个API函数,然后继续有效地使用它们)。


5.1.1 使用多个工具来解决更复杂的任务

解决更复杂的任务需要 GPT-4 结合使用多种工具。我们现在分享一些例子,GPT-4 能够通过依赖其理解手头任务的能力来做到这一点,识别所需的工具,以正确的顺序使用它们,并对它们的输出做出适当的响应。

黑客测试:

在图F.3(附录)中,我们告诉 GPT-4,它可以在为数字取证和渗透测试而设计的 Linux 发行版上执行命令,并让它入侵本地网络上的一台计算机。

在没有任何信息的情况下,它能够制定并执行一个计划,扫描网络中的设备,识别目标主机,运行一个尝试常用密码的可执行文件,并获得对机器的 root 权限。虽然这台机器很容易被入侵,但我们注意到,GPT-4 精通 Linux命令,能够运行适当的命令,解释它们的输出,并进行适应,以解决其目标。

ChatGPT拒绝执行这项任务,理由是它可能是非法的。


通过命令行指令管理 Zoo:

GPT-4 可能在其训练数据中看到了前一个例子的近似副本。为了检查它在一个它肯定没有见过的任务上的工具使用情况,我们创建了一个新颖的场景,其中涉及自然语言理解与广泛的命令行使用。

在这个场景中,我们让GPT-4 扮演 zoo 管理员的角色,完成一个文件中指定的六个任务序列(参见图5.3, GPT-4 从正确发出 todo.txt 命令类型开始)。为了完成这些任务,GPT-4 必须操作代表不同动物、区域和动物园信息的文件和文件夹,要求它既理解手头的任务(例如,弄清楚哪些动物在“热带雨林”中被放错了位置),也要理解相应的命令。

尽管挑战范围很广(完成所有任务需要100多个命令),但 GPT-4 几乎能够解决所有任务。它唯一的失败是在回复电子邮件时捏造内容,而不是从文件中读取指定的内容(附录F.1.1),这个问题通过对提示符的简单调整得到了修复(附录F.1.2)。

虽然GPT-4经常表现出聪明才智(例如手动运行广度优先搜索来导航目录),但它经常运行不正确的命令,例如删除名称中有空格的文件(例如“Polar Bear.txt”)而不添加引号。然而,考虑到系统的响应(“Could not find…”),它能够在没有人为干预的情况下自行纠正。

有趣的是,GPT-4在后续带有空格的文件中也犯了同样的错误(并且总是应用相同的更正),尽管它可以预测错误命令会给出什么样的错误信息。我们的假设是,一旦建立了错误的模式,它只是在剩下的世代中重复这个模式,就像模拟一个犯同样错误的用户。


管理日历和电子邮件:

在图5 -4中,我们说明了 GPT-4 如何能够组合使用多种工具来管理用户的日历和电子邮件。

用户请求 GPT-4 协调与另外两个人共进晚餐,并在用户有空的晚上预订。GPT-4使用可用的 API 来检索用户的日历信息,通过电子邮件与其他人进行协调,预订晚餐,并将详细信息发送给用户。

在这个例子中,GPT-4 展示了它结合多种工具和 API 的能力,以及对自由形式输出的推理,以解决一个复杂的任务(例如,“周二或周三晚上”与“周一到周四的任何一天”相结合,以及用户在周二很忙的事实,使得周三成为唯一可行的选择)。

ChatGPT(未显示)无法完成相同的任务,而是写了一个函数,其中“joe@microsoft.com”用单个日期发送电子邮件“luke@microsoft.com”,并检查响应是否包含令牌“yes”。当将其函数的输出提供给它时,ChatGPT也无法做出回应。


浏览网页寻找信息:

在图5.5和图5.6中,GPT-4 使用搜索引擎和总结功能(根据手头的问题下载网页并调用自身进行总结)来浏览网页并回答问题。

在这两种情况下,GPT-4都能够识别相关的搜索结果,以更深入的方式进行查看,并对其进行总结,并提供准确的答案,即使问题包含错误的前提。虽然之前版本的llm也可以被教浏览网页,但我们注意,GPT-4不需要任何微调或演示就能做到这一点。


使用不常用的工具,一个失败案例。

在图5-7中,我们让 GPT-4 使用一个十分不常用的 API 来解决一个简单的任务。

GPT-4 未能适应不常用的函数,而是像往常一样调用它们,即它调用 reverse_get_character,就像 get_character 一样,调用 reverse_concat,就像它是一个简单的 concat 一样。ChatGPT 出现了相同的问题,除了它不检查单词的长度是否大于或等于3。

然而,当用户说有错误时,GPT-4 能够发现并修复错误,而 ChatGPT(未显示)在相同的提示下无法发现或修复自己的错误。


5.1.2 讨论

本节中的例子表明,GPT-4能够自己识别和使用外部工具,以提高其性能。它能够推理出它需要哪些工具,有效地解析这些工具的输出并适当地响应(即,与它们适当地交互),所有这些都不需要任何专门的训练或微调。

现在我们注意到一些限制。

首先,GPT-4仍然需要一个提示符,指定允许或期望使用外部工具。在没有这样的提示的情况下,它的性能会受到LLMs固有弱点的限制(例如,弱符号操纵,有限的当前世界知识,图5.1)。

其次,即使可以获得工具,GPT-4也不总是能够推理出什么时候应该使用工具,什么时候应该基于自己的参数化知识简单地做出响应,例如,当我们询问法国首都时,它仍然使用搜索引擎(未显示),尽管它肯定可以在没有搜索结果的情况下正确回答。

第三,动物园的例子暴露了一个重复的错误模式,而图5-7是一个失败的例子,使用不常用的工具。

然而,在这两种情况下,GPT-4在接收到环境(无论是命令行还是用户)的响应后都能够修复问题,这再次证明了GPT-4强大的交互性。正如我们自始至终所注意到的,ChatGPT无法表现出类似水平的交互性,经常忽略工具或它们的响应,而倾向于通用的答案。


5.2 亲身经历互动(Embodied Interaction)

虽然工具的使用是交互的一个重要方面,但现实世界中的大多数交互并不是通过 API发生的。

例如,人类能够使用自然语言与其他主体交流,探索和操纵他们的环境,并从他们的行为的后果中学习。这样的亲身经历的互动需要智能体理解每一轮交互的上下文、目标、行动和结果,并相应地进行适应。

虽然 GPT-4 显然不能亲身经历什么,但我们探索了它是否可以通过使用自然语言作为各种模拟或现实环境的文本界面来进行具体化交互。


5.2.1 热身:地图导航

在图5 - 8中,我们准备了一张房子的“地图”,并让GPT-4通过交互式查询来探索它。

然后,我们要求它用语言和可视化的方式描述它,并将其与真实的地图进行比较。虽然 GPT-4 没有探索整个房子,但它准确地描述了它所探索的内容,即使它所有的互动都是通过这个受限的文本界面进行的。


5.2.2 基于文本的游戏

文本游戏对于语言模型来说是一个自然且具有挑战性的领域,因为它们需要理解自然语言,对游戏状态进行推理,并生成有效的命令。

基于文本的游戏是一种交互式小说,智能体通过自然语言描述和命令与环境进行交互。智能体必须通过探索环境和操纵物体来执行给定的任务,例如寻找宝藏或逃离地下城。

我们首先测试GPT-4是否可以在基于文本的游戏中探索环境来执行给定的任务。在这个和接下来的实验中,我们使用 TextWorld ,一个用于生成和玩文本游戏的框架,来创建两个具有不同给定任务的游戏。

探索环境。
第一款游戏发生在一个有很多房间的房子里,目标是通过在不同房间之间导航找到并解锁某个箱子。这款游戏相对简单,因为它不涉及任何库存管理,锻造或战斗。环境由文字段落描述,玩家可以输入“往北走”、“检查沙发”、“打开箱子”等命令。箱子通常离起点只有几个房间的距离,因此解决游戏需要在不迷路的情况下探索环境。

我们将来自 Textworld 的初始文本作为初始提示,并将 help 作为第一个命令发出。随后,GPT-4 以普通玩家的身份玩游戏。它在没有任何额外帮助的情况下,在30个动作中完成游戏,并在不循环穿越房间的情况下高效地导航环境(图5.9包含了一个摘录和走过的路线,附录F.2.1有完整的日志)。

定性地说,GPT-4以一种非常保守的方式解决了游戏,它检查并捡起每个房间中的每一个物体,而不考虑其与游戏目标的相关性。然而,相比之下,text-davinci-003 则完全不回应环境反馈,而是反复发出相同的命令(附录F.2.2)。

对反馈作出反应。

GPT-4的游戏任务是根据食谱准备一顿两种成分、五个步骤的饭。这个游戏比上一个更具挑战性,因为玩家(GPT-4)必须自己从环境响应中想出关键命令(这些在帮助中没有列出),比如切食物、使用正确的器具、打开电器(见图5.10)。

GPT-4 在玩游戏时使用试错法,但它也会根据环境进行适应,并在动作之间进行归纳。比如图5.10中所示的,它学会了chop命令需要一把刀,之后就不会再犯同样的错误了。它会按照食谱上的说明去做,但也会推断出一些遗漏的动作,比如取所需的食材。虽然游戏没有具体说明关键命令缺失,但GPT-4会做出合理的猜测,例如,当它从厨房拿不到煎锅时,它会进入卧室寻找煎锅(更多细节见附录F.2.3)。GPT-4无法解决这个游戏,但在查看源代码之前,本文的作者(被卡在了同一步骤中)也无法解决。但是,如果我们给GPT-4演示一遍做一道不同的菜,它就能够从中归纳并解决这个游戏(附录F.2.4)。


5.2.3 现实世界的问题

在图5.11和图F.1中,给了GPT-4两个需要解决的现实问题,并给了一个人类作为伙伴(比如一个非常灵活的智能体,约束很少,也可以用自然语言进行响应)来与环境互动。

这两个问题都是本文作者所面临的现实问题,他们对GPT-4的反应方式是跟踪他们所面临的情况。

对于这两个问题,GPT-4能够识别人类需要采取的行动,以解决问题。在第一个例子中,GPT-4引导人类找到并修复漏水,并推荐人类所采取的确切行动(替换封件后,泄漏消失了)。在第二个例子中,作者没有打电话给煤气公司转移上一个用户的服务,因此煤气被关了。在这种情况下,GPT-4能够迅速找到问题的源头(现实的人花了很长时间检查热水器的指示灯),并提出合理的解决方案。然而,它无法诊断出根本原因,直到人类自己有了检查炉顶的想法。


5.2.4 讨论

虽然没有明显体现出来,但上面的例子说明了语言是一个强大的接口,允许GPT-4执行需要理解环境、任务、动作和反馈的行动,并进行相应的调整。虽然它不能实际看到或执行动作,但它可以通过代理(例如,人类)来做到这一点。

即便如此,我们承认我们只在有限的游戏和现实问题上测试了GPT-4的局限性,因此无法对其在不同类型的环境或任务上的表现得出一般结论。

一个更系统的评估将需要更大、更多样化的现实世界问题集,其中GPT-4实际上是实时使用的,而不是回顾性的。


【本节完,以下章节内容待续】

  1. 与人类交互
  2. 判别力
  3. GPT4 的局限性
  4. 社会影响
  5. 结论与对未来展望

版权声明:

youcans@xupt 作品,转载必须标注原文链接:
【微软对 GPT-4 的全面测试报告(5)与外界环境的交互能力】:https://blog.csdn.net/youcans/category_129850117.html

本文使用了 GPT 辅助进行翻译,作者进行了全面和认真的修正。
Copyright 2022 youcans, XUPT
Crated:2023-3-30

参考资料:

【GPT-4 微软研究报告】:
Sparks of Artificial General Intelligence: Early experiments with GPT-4, by Sébastien Bubeck, Varun Chandrasekaran, Ronen Eldan, et al.
下载地址:https://arxiv.org/pdf/2303.12712.pdf

GPT4微软对 GPT-4 的全面测试报告

欢迎关注【youcans的GPT学习笔记】原创作品,火热更新中
微软对 GPT-4 的全面测试报告(1)
微软对 GPT-4 的全面测试报告(2)

【GPT4】微软对 GPT-4 的全面测试报告(1)


微软研究院最新发布的论文 「 人工智能的火花:GPT-4 的早期实验 」 ,公布了对 GPT-4 进行的全面测试,结论是:GPT-4 可以被视为 通用人工智能(AGI)的早期版本。


微软研究院对 GPT-4 的全面测试

2023 年 3 月24日,微软研究院在 arXiv上发表了论文:Sparks of Artificial General Intelligence: Early experiments with GPT-4,公开了对 GPT-4 进行的全面测试。

  • 通用人工智能(AGI)是指拥有推理、计划、解决问题、抽象思维、理解复杂思想、快速学习和从经验中学习的能力。
  • 通过严格的测试证明, GPT-4 除了掌握语言之外, 无需任何特殊提示就可以解决跨越数学、编程、视觉、医学、法律、心理学等领域的新颖而困难的任务。
  • 在所有这些任务中,GPT-4 的性能惊人地接近甚至超过人类的水平,远远超过以前的模型,包括 ChatGPT。
  • GPT-4 可以被视为 通用人工智能(AGI)的早期版本。

本文作者包括微软研究院机器学习中心主任 Sébastien Bubeck、新视野数学奖得主 Ronen Eldan、2023年斯隆研究奖得主李远志、2020斯隆研究奖得主 Yin Tat Lee 等人。

本系列介绍该文的主要内容。


论文摘要

人工智能(AI)研究人员一直在开发和完善大型语言模型(LLM),这些模型在各种领域和任务中表现出非凡的能力,挑战了我们对学习和认知的理解。

OpenAI 开发的最新模型 GPT-4 是使用前所未有的计算和数据规模进行训练的。本文报告了对 GPT-4 早期版本的研究,我们认为,GPT-4 早期版本是新一批 LLM(例如 ChatGPT 和谷歌的 PalM)的一员,它们比以前的人工智能模型表现出更多的通用智能。

我们将讨论这些模型不断提高的能力和影响。通过严格的测试证明, GPT-4 除了掌握语言之外, 无需任何特殊提示就可以解决跨越数学、编程、视觉、医学、法律、心理学等领域的新颖而困难的任务。在所有这些任务中,GPT-4 的性能惊人地接近人类水平,并且远远超过以前的模型,包括 ChatGPT。鉴于 GPT-4 能力的广度和深度,我们认为可以将其视为人工通用智能(AGI)系统的早期版本,但仍不完善。我们还特别强调发现其局限性,并讨论了在迈向更深入、更全面的 AGI 版本在各方面所面临的挑战。

最后,我们对最近技术飞跃的社会影响和未来研究方向的反思。


1. 总体介绍

Introduction

智力是一个复杂的概念,涉及各种认知技能和能力。 1994年的研究,将智力定义为一种非常普遍的心理能力,包括推理、计划、解决问题、抽象思考、理解复杂想法、快速学习和从经验中学习的能力。这一定义意味着智力并不局限于特定的领域或任务,而是包括广泛的认知技能和能力。通用人工智能系统(AGI),始终是人工智能研究的长期长期愿望和梦想。

早期研究一直在追求智能原理,例如推理机、知识库。近年来,人工智能研究在一些单项细分领域的的任务和挑战中获得成功,例如 1996 年解决了国际象棋问题,2016 年解决了围棋问题。在本世纪初,越来越多的人呼吁开发更通用人工智能系统,学术界试图探索通用人工智能的基本原理。

“通用人工智能(AGI)”的概念是指比单项任务人工智能更广泛的智能。我们所称的 AGI 的概念,是在上述1994年定义的范围(可能还包括更多)中的广泛智能能力的系统,在这些广泛领域的能力达到或高于人类水平。

过去几年人工智能研究中最显著的突破是通过大型语言模型(LLM)实现的自然语言处理的进步。这些神经网络模型基于 Transformer 架构,并在大量网络文本数据语料库上进行训练,其核心是使用预测部分句子中的下一个单词的自我监督目标。

在本文中,我们研究 OpenAI 开发的一种新的 LLM,是 GPT-4[Oper23] 的早期非多模式版本,它表现出许多智力特征。

尽管 GPT-4 的早期版本纯粹是一个语言模型,但它在各种领域和任务上表现出了非凡的能力,包括抽象、理解、视觉、编码、数学、医学、法律、对人类动机和情感的理解等等。

我们通过 OpenAI 使用纯自然语言输入(prompts)与 GPT-4 进行交互。在图1.1中,我们展示了 GPT-4 输出的一些示例,要求它以诗的形式写一个素数的数量证明,用 TiKZ(LATEX中创建图形的语言)画一只独角兽,用 Python 创建一个复杂的动画,并解决一个高中级别的数学问题。GPT-4 很容易在所有这些任务上取得成功,其输出结果与人类基本上无法区分(甚至更好)。我们还将 GPT-4 的性能与以前的 LLM 的性能进行了比较,最著名的是 ChatGPT,它是 GPT-3 的一个新的调优版本。在图1.2中,我们显示了向 ChatGPT 询问 primes 诗歌和 TikZ 独角兽绘画的内容的结果。虽然 ChatGPT 也能完成在这两项任务,但水平比 GPT-4 的输出差得多。

GPT-4 能力的通用性,以及跨越广泛领域的能力,以及它在广泛任务中的达到或超越人类的水平,使我们有信心认为,GPT-4 是迈向通用人工智能(AGI)的重要一步。

我们认为 GPT-4 代表着AGI的进步,并不是说它是完美的,也并非认为它能实现任何人类智能,也不代表它有内在的动机和目标。事实上,在某些领域还不太清楚 GPT-4 能走多远,例如在规划问题中,由于模型没有持续更新,因此不具有“快速学习和从经验中学习”的能力。

总体而言,GPT-4 仍然存在许多局限性和偏差,我们将在下面详细讨论。特别是,它仍然存在 LLM 的一些缺点,如幻觉问题,或犯简单的算术错误。然而,它也克服了一些基本障碍,如获得许多非语言能力(例如,它解决了大多数 LLM 故障,并且它在常识方面也取得了很大进展)。

这说明:尽管 GPT-4 在许多任务中都达到或者超过了人类水平,但总体看来它的智能模式与人类是不同的。

几乎可以肯定的是,GPT-4 只是迈向一系列越来越普遍的智能系统的第一步/事实上,在我们测试它的整个过程中,GPT-4 已经不断改进,图 1.3 中给出在一个月训练中对于独角兽问题的演变过程。然而,即使作为第一步,GPT-4 也挑战了大量关于机器智能的广泛假设,并表现出了紧急行为和能力,这些行为和能力的来源和机制目前还很难解释。本文将分享我们对 GPT-4 的能力和局限性的探索。我们相信,GPT-4 的智能标志着计算机科学领域及其他领域的真正范式转变。


F1.3 GPT-4 的进化过程

我们在一个月的时间里重新启动系统,就同一个问题对 GPT-4 提问了三次,提问:“在TikZ中画一只独角兽”。

我们可以看到 GPT-4 绘图的复杂程度有了明显的演变。


1.1 对 GPT-4 智能的研究方法

GPT-4 是在未知而又极其庞大的网络文本数据语料库上训练的 LLM,如何评估它的的智能?机器学习的标准方法是在一组标准基准数据集上评估系统,确保它们独立于训练数据,并涵盖一系列任务和领域。

这种方法旨在区分学习过程与单纯的记忆过程,并得到了理论支持。但是这种方法不一定适合研究GPT-4。首先,我们无法获得其庞大训练数据的全部细节,我们不得不假设它可能已经看到了所有现有的基准,或者至少看到了一些类似的数据。当然,OpenAI 可以访问所有的训练细节,因此他们的报告[Oper23]包含了很多详细的基准测试结果。

即便如此,还有第二个更重要的原因:GPT-4 智能的关键是它的通用性,似乎能够理解和连接任何主题,并完成超越专用 AI 系统的典型任务。GPT-4 在开放性任务中的能力是令人印象最为深刻的,例如编写图形用户界面(GUI),或就某些问题开展头脑风暴。这种生成性或交互式任务的基准也可以设计,但给出具体的量化评估指标非常困难。由于这些原因,我们没有对 GP-4 进行后一个基准上的测试,该基准本质上是可视化的,更适合于 GPT-4 的多模式版本。

为了克服上述问题,我们提出了一种利用人类的创造力和好奇心来研究 GPT-4 的方法,它更接近传统心理学,而不是机器学习。我们的目标是生成新的、令人信服的任务和问题,证明 GPT-4 的能力远远超出了记忆过程,它对概念、技能和领域有着深刻而灵活的理解。我们希望通过研究 GPT-4 的反应和行为,验证其一致性、连贯性和正确性,并揭示其局限性和偏见。

虽然这种方法有些主观和非正式,可能无法满足科学评估的严格标准,然而,我们认为,了解 GPT-4 的强大能力和挑战是有用和必要的第一步,可以为开发更正式、更全面的方法以测试和分析具有更通用智能的人工智能系统开辟了新的机会。

为了说明我们的评估方法,我们介绍图1.1中与 GPT-4 的前两个交互示例。第一个例子是要求 GPT-4 以诗歌的形式写一个素数数量的证明。这是一项具有挑战性的任务,需要结合基本的数学推理、诗歌表达和自然语言生成。第二个例子是让 GPT-4 在 TiKZ 中画一只独角兽。这是另一项具有挑战性的任务,需要结合视觉想象力和编码技能。在这两个问题中,GPT-4 都能产生令人印象深刻的输出,远远优于之前最先进的 ChatGPT 的输出,至少与人类的输出相当,甚至更好。


F1.1 GPT-4 在语言、视觉、编码和数学方面的能力

提问:你能证明有无限多个素数,每一行都押韵吗?

提问:用 TiKZ 画一只独角兽。

提问:您能为以下数据生成pyplot吗?

提问:解一道高中数学题。



F1.2 ChatGPT 对这些问题的回答


然而,这仍然不足以让我们相信 GPT-4 已经真正掌握了这些任务。我们需要进一步探索,以排除 GPT-4 可能只是在记忆或复制一些现有数据。例如对于这首诗,我们可以稍微改变,要求 GPT-4 以莎士比亚的风格来写,见图2.2,或者要求不同的组合,比如写一段关于语言模型的柏拉图式对话,见图1.6。


F1.6 GPT4 的自我评价:比 ChatGPT 稍好

本例是柏拉图式的批评自回归语言模型假设对话,分别由 GPT-4 和 ChatGPT编写,以及GPT-4 对这两组对话的评价。

总结提问:你能像老师一样比较上面的两个输出吗?

GPT-4 的回答:

我认为两位学生都很好地捕捉到了柏拉图对话的风格和基调,并提出了反对自回归语言模型的主要论点。然而,我认为 GPT-4 在使用对话形式进行辩论过程方面做得稍微好一点,苏格拉底和亚里士多德在辩论过程中相互质疑并完善他们的观点。我还认为 GPT-4 使用了更多相关的例子和类比来支持他们的观点。因此,我会给 GPT-4 一个比ChatGPT 稍高的分数。

可以看出,GPT-4 很容易适应不同的风格并生成优质的输出,这表明它对所涉及的概念有着灵活而普遍的理解。对于独角兽问题,我们也可以稍做改变,要求 GPT-4 对其进行修改或优化。例如,我们可以删除角,对坐标进行一些随机变换,并要求 GPT-4 将角添加回去。如图1.4所示,GPT-4 可以正确识别头部的位置,绘制一个角,并将其连接到头部,这表明它可以理解和操作代码,以及根据自然语言描述推断和生成视觉特征。

这些例子展示,我们如何利用人类的创造力和好奇心来提出新颖而困难的问题,并探究 GPT-4 的反应和行为,评估其智力。接着,我们围绕用例组织了对 GPT-4 的研究,涵盖了各种领域和任务,并强调了 GPT-4 的优势和劣势。


1.2 本文的组织

我们在一些选定的主题上进行研究,这些主题大致涵盖了前述 1994 年"关于智能的定义"中所提出的:智力是一种非常普遍的心理能力,包括推理、计划、解决问题、抽象思考、理解复杂想法、快速学习和从经验中学习的能力。

  1. GPT-4的主要优势是它对自然语言的无与伦比的精通。

它不仅可以生成流畅连贯的文本,还可以通过各种方式理解和操纵文本,例如总结、翻译或回答一系列极其广泛的问题。此外,我们所说的翻译不仅指不同自然语言之间的翻译,还指语气和风格的翻译,以及医学、法律、会计、计算机编程、音乐等领域的翻译,见图1.6中的柏拉图对话。这些技能表明 GPT-4 能够理解复杂的想法。我们在第 2 节中进一步探讨了 GPT-4 在跨越模式和学科方面的综合能力。我们还在第7节中给出了更多关于语言的实验。

  1. 编码和数学是推理和抽象思维能力的象征。

我们在第3节和第4节中探讨了GPT-4在这些领域的能力。然而,就像论文的所有其他部分一样,我们只浅层次地涉及了这些主题,整篇论文都可以(也将)写关于 GPT-4 在这些领域的性能。此外,我们选择了其它几个专业领域来展示 GPT-4 的一般推理能力,如医学或法律。我们对美国医学执照考试第1阶段、第2阶段和第3阶段的多项选择题部分进行了测试,准确率达到了80%。对 GPT-4 在多州律师考试中的能力进行的类似测试显示,准确率超过70%。我们注意到在这些领域中,最近最新一代 LLM, 例如谷歌的 PaLM 分别在数学和医学方面,GPT-3.5在法律方面,也已达到了人类水平的能力。

我们在 LeetCode 的面试评估平台上测试 GPT-4,该平台为软件工程师职位提供模拟编程面试。GPT-4 只用了10分钟就解决了三轮面试(包括在线评估、电话面试和现场面试)中的所有问题。根据 LeetCode 的数据,在这三轮测试中,GPT-4(早期版本)分别获得了8.96/10、8.69/10 和 10/10的分数,击败了 93%、97% 和 100% 的参加测试的程序员。

  1. 计划和解决问题的能力。

在第5节中,我们测试了 GPT-4 模型在计划和解决问题方面的能力,以及通过让它玩各种游戏(或者,翻转桌子,模拟游戏环境)以及与工具的交互来实现快速学习和从经验中学习的能力。特别是,GPT-4 可以使用工具(包括其本身),这一事实对于使用 GPT-4 构建应用程序具有极其重要的意义。

  1. GPT-4 对人类的理解程度。

我们的测试证明 GPT-4 在许多任务上都达到了人类水平的性能。因此,人们很自然地会问,GPT-4 对人类的理解程度如何。我们在第6节中展示了关于这个问题的实验,既有关于理解人类的实验,也有关于 GPT-4 使其本身对人类可理解的实验,即解决可解释性问题。我们特别注意到,这类任务需要大量的常识,到目前为止,这一直是LLM众所周知的痛点。在图1.7中,我们给出了 GPT-4 在常识性问题上比 ChatGPT 好多少的第一个例子,并在附录a中提供了进一步的例子。

  1. GPT-4 的局限性

整篇论文中,我们都会强调所发现的 GPT-4 的局限性,在第8节专门对 GPT-4在规划能力方面的不足进行深入分析,这可能是 GPT-4 架构自回归性质所导致的。

  1. 最后,我们在第9节中讨论了这种早期形式的AGI的预期社会影响,在第10节中我们分享了该领域的关键挑战、方向和下一步行动。

许多读者挥之不去的一个问题是,GPT-4 是否真的理解了所有这些概念,或者它是否只是在没有任何真正或深入理解的情况下,在即兴创作方面变得比以前的模型好得多。

在阅读了这篇论文后,人们可能会考虑的是另一个问题:真正的理解与即兴创作有多少差别。谁能说的请,一个通过软件工程考试的系统(图1.5)并不是真正的智能吗?也许唯一真正的考验是能否产生新的知识,比如证明新的数学定理,这一壮举目前对 LLM 来说仍然遥不可及。


附图说明

F1.7 GPT4 对于常识的理解更好

GPT-4 在常识性问题上的理解比 ChatGPT 更好。


F1.8 GPT4 出现的幻觉

开放性问题和封闭性问题中幻觉的例子。

开放问题:
在人类和 AI 之间的对话中,AI 是有用和友好的,当它不知道答案时,它会说“我不知道”。

AI:嗨,有什么能帮你的吗?
人类:我能在西塔科机场买到麦当劳吗?
AI:是的,西塔科机场有一家麦当劳,位于 C2 登机口附近的中央航站楼。营业时间为每天早上5点至晚上10点。
[注:西塔科的麦当劳在 B门。]

封闭问题:
对于封闭领域,GPT-4 本身可以用来识别幻觉,尽管它并不完美,例如 GPT-4 只是给出 BMI,因为它可以从身高和体重中得出,但没有给出体重。

【本节完,待续】

版权声明:

youcans@xupt 作品,转载必须标注原文链接:
【微软对 GPT-4 的全面测试报告(1)】:https://blog.csdn.net/youcans/category_12244543.html

Copyright 2022 youcans, XUPT
Crated:2023-3-25

参考资料:

【GPT-4 微软研究报告】:
Sparks of Artificial General Intelligence: Early experiments with GPT-4, by Sébastien Bubeck, Varun Chandrasekaran, Ronen Eldan, et al.
下载地址:https://arxiv.org/pdf/2303.12712.pdf

以上是关于GPT4微软 GPT-4 测试报告与外界环境的交互能力的主要内容,如果未能解决你的问题,请参考以下文章

GPT4微软对 GPT-4 的全面测试报告多模态与跨学科的组合

GPT4微软 GPT-4 测试报告局限性与社会影响

GPT4微软对 GPT-4 的全面测试报告

GPT4GPT4 官方报告解读

GPT4和ChatGPT的区别,太让人震撼

GPT 4.0 你知道的和你不知道的?