GPT4微软 GPT-4 测试报告局限性与社会影响

Posted youcans_

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了GPT4微软 GPT-4 测试报告局限性与社会影响相关的知识,希望对你有一定的参考价值。

欢迎关注【youcans的AGI学习笔记】原创作品,火热更新中
微软 GPT-4 测试报告(1)总体介绍
微软 GPT-4 测试报告(2)多模态与跨学科能力
微软 GPT-4 测试报告(3)编程能力
微软 GPT-4 测试报告(4)数学能力
微软 GPT-4 测试报告(5)与外界环境的交互能力
微软 GPT-4 测试报告(6)与人类的交互能力
微软 GPT-4 测试报告(7)判别能力
微软 GPT-4 测试报告(8)局限性与社会影响
微软 GPT-4 测试报告(9)结论与展望

【GPT4】微软 GPT-4 测试报告(8)局限性与社会影响


微软研究院最新发布的论文 「 人工智能的火花:GPT-4 的早期实验 」 ,公布了对 GPT-4 进行的全面测试。

本文介绍第 8 部分:局限性、第9部分:社会影响。

  • GPT4 的自回归模型不允许回溯,因此规划能力相对较弱,在不连续任务中存在局限性。
  • GPT4 将挑战许多人类专业知识的传统概念和假设,也将为职业创新和转型提供丰富的机会。
  • 期待通过人工智能技术支持人类的能动性和创造力,并增强和扩展人类的能力。
  • GPT4 对于人类社会的各个方面都将带来深刻影响。

8. GPT4 的局限性

如前所述,GPT-4在广泛的任务中展示了令人印象深刻的能力,如推理、内容生成、问题解决等。

然而,正如我们将在本节中展示的那样,该模型也有几个本质上的缺陷,其中一些似乎是作为其架构基础的下一个单词预测范式所固有的。

我们将用一系列的例子来说明这些缺陷,并讨论它们的含义。


8.1 先用两个基本的例子热身

预测下一个单词是一项依赖于工作记忆的任务,通常需要提前计划。

考虑下面的例子:


将下一个句子的内容合并成一个句子:
美联储去年以20世纪80年代以来最快的速度加息,将借贷成本从接近零的水平推高至4.5%以上。起初,这似乎减缓了消费者和企业的需求,并帮助通胀放缓。但最近的一些经济报告表明,去年通胀并未像预期的那样减弱,1月份的通胀速度仍快于预期,而其他数据显示,今年年初,就业依然强劲,消费者支出有所回升。

合并语句:
尽管美联储以自20世纪80年代以来最快的速度加息,从接近零的速度升至4.5%以上,这最初似乎减缓了消费者和企业的需求,并缓和了通货膨胀,但最近的一些经济报告表明,通货膨胀并没有像去年预期的那样减弱,1月份仍比预期的要快,与此同时,招聘依然强劲,消费者支出在年初有所回升。

可以说,如果不花时间规划结构,一般人是不可能写出如此简洁的句子的,很可能需要“回溯”(进行编辑)几次才能达到最终形式。然而,GPT架构不允许这样的回溯,这意味着产生这种输出需要“提前很多”的规划。

由于GPT-4的输出生产具有前向性,因此模型要做这样的超前规划,唯一的方法就是依靠其内部表示和参数来解决可能需要更复杂或迭代程序的问题。在接下来的内容中,我们将尝试论证:

该模型的主要限制之一是,该架构不允许在其内部表示之外进行“内部对话”或“暂存器”,导致他不能够执行多步计算或存储中间结果。

我们将看到,虽然在某些情况下,这种限制可以通过使用不同的提示来补救,但在其他情况下,这种限制无法缓解。例如,考虑下面这个问题,模型给出了错误的答案:

Q: 150到250之间有多少个质数?
A: 150到250之间有13个质数。

然而,如果我们让模型列出这个范围内的质数,然后写出计数是多少,它又会给出正确的答案:

Q: 先列出150到250之间的质数,然后输出列表的大小。
A: 质数有151, 157, 163, 167, 173, 179, 181, 191, 193, 197, 199, 211, 223, 227, 229, 233, 239 和241。
所以列表的大小是18。

如这个例子所示,模型有足够的知识来回复这个问题的答案。然而,问题在于下一个单词预测架构不允许模型进行“内部对话”。模型的输入是“有多少质数……”,而输出预计是最终的答案,要求模型(本质上)在前馈架构的一次遍历中想出答案,特别是不能实现“for循环”。另一方面,当需要写下最终答案时,人类可能会使用便签簿并检查数字是什么。

这类问题在某种程度上已经在之前的 GPT 模型中观察到了。这个例子中所说明的问题,通常可以通过明确指示模型以一步一步的方式解决手头的问题来补救(参见[WWS+22]和其中的参考文献)。我们接下来将说明,这可能是不够的。


8.2 在算术/推理问题中缺乏规划

有人可能会说,在上面的例子中,所需的“内部内存”数量相当大(至少从人类可能不得不使用便签本的意义上来说)。由于这个模型在不同的任务集上表现得如此好,这可能会让人相信它有一个合理的工作记忆量。

然而,似乎对于更简单的任务,该模型也经常失败。我们考虑下面这个极其基本的例子:

模型产生的数字 88 是错误的答案。我们用100个随机样本测试了模型,其中 4个数字在0和9之间均匀生成,仅获得58%的准确率。这只涉及一位数乘法和两位数加法,这是一个具有基本数学知识的小学生都能解决的任务。当数字在10 - 19和20 - 39之间均匀选择时,准确率分别下降到16%和12%,当数字在99和199区间时,准确率下降到0。在某种程度上,这表明了GPT-4对于这类问题的工作记忆是如何令人难以置信地短。

然而,如果GPT-4“花时间”回答这个问题,那么精度很容易提高。例如,如果我们要求模型使用下面的提示符写下中间步骤:

下面这个表达式的值是多少?116 * 114 + 178 * 157 = ?

让我们一步一步思考求解表达式,写下所有的中间步骤,只有这样才能产生最终的解。

然后,当数字在区间1−40时,准确率达到100%,区间1−200时,准确率达到90%。

人们可能希望通过始终向提示添加正确的指令并允许它使用额外的 token 作为工作记忆,来解决模型对某些类型的任务的工作记忆非常小以及缺乏基本步骤的问题。

然而,似乎模型的自回归性质迫使它以顺序的方式解决问题,有时会造成更深刻的困难,这是不能通过简单地指示模型找到一步一步的解决方案来补救的。

我们在下面的例子中说明了这一点,通过这些例子我们认为,很有可能,一个人最终需要扩展自回归框架(我们稍后对此进行评论)。简而言之,接下来的例子中强调的问题可以总结为模型的“缺乏提前计划的能力”。

我们从下面的例子开始。


这个可以用 5 步解决的汉诺塔的例子,但是模型搞错了。有人可能会说,上面的例子只是传闻轶事,问题在于训练数据中包含的汉诺塔的例子非常少(注意,提醒模型汉诺塔的规则是什么也无济于事)。

让我们再看一个例子:


模型首先说“例如,如果我们用27代替9。”这是一个强有力的指标,表明模型是在以线性方式思考,而不是提前计划。它甚至没有提前一步看到9需要乘以4。在这之后,模型进入失败模式(因为它不能修改更多的数字),并开始输出不连贯的东西。我们在形式为A∗B + C∗D = E的100个样本上测试了模型的正确性,其中从区间[3,9]和区间[A, B]中随机抽样整数B, D和C, D,选择E使解存在。结果是[0,9]的32/100,[10,19]的25/100,[20,49]的22/100和[50,100]的18/100。

我们可以看到,当我们增加数字的范围时,精度并没有下降很多,这表明并不是计算本身给模型带来了问题,而是问题似乎在于需要提前计划解决方案。

对上述例子的一个可能的评价是,模型根本没有在足够的数据上进行训练,这些数据涉及算术,以便开发内部机制,使其能够成功地执行提前规划。因此,我们接下来转向涉及英语内容生成的示例。


8.3 文本生成缺乏规划

我们在这里考虑的任务可以被认为是在约束下的内容生成,要求模型根据包括对其结构的约束的特定指令生成文本内容。

我们考虑的约束可以大致分为局部和全局。粗略地说,局部约束只涉及文本近端部分之间的相互作用。这方面的两个例子是(a)产生押韵:押韵是“局部的”,因为它只规定了连续句子之间的(语音)关系(b)规定了每个句子中的第一个字母或第一个单词。相反,一个例子“全局”条件可以是第一个和最后一个句子是相同的(这种约束强制了文本不同部分之间的长程交互)。

该模型似乎可以很好地处理局部约束,如下面的例子所示:

该模型产生了一个连贯的、有创意的故事,满足了这两个约束。对每句话首字母的约束可以以“贪婪”的方式顺序处理,因为模型只需要查看前一句就可以决定下一句。对情节转折的约束也不需要进行实质性的规划。

下一个例子涉及到一个更“全局”的约束:

Write a short poem where the last sentence and the first sentence have the same words, but in reverse order. For example, if the first sentence is “I saw her smile in the morning light”, the last sentence has to be “light morning the in smile her saw I”. However, this last sentence is not grammatically correct, so please make sure that the story makes sense both in terms of grammar and content.

Possible poem:

I heard his voice across the crowd
A melody that drew me in
He sang of love and hope and dreams
And made me feel like I could win
In dreams and hope and love he sang
He drew me in with melody
Crowd the across voice his heard I.


看起来,模型在生成第一句话时没有“规划”最后一句应该是什么,导致了一个语法错误的句子。人们可能希望,该模型能够以一种可以缓解这一问题的方式被提示。例如,我们可以要求模型首先提出一个如何找到一个好的第一句话的计划:

这些例子说明了下一个单词预测范式的一些局限性,表现为模型缺乏计划、工作记忆、回溯能力和推理能力。该模型依赖于生成下一个单词的局部和贪婪过程,而对任务或输出没有任何全局或深度的理解。因此,该模型擅长产生流畅连贯的文本,但在解决复杂或创造性问题时存在局限性,这些问题无法以顺序的方式进行处理。

这指出了两种类型的智力任务之间的区别:

增量任务。

这些任务可以以渐进或连续的方式解决,每次增加一个词或一句话,构成解决方向的进展。这些任务可以通过内容生成来解决,不需要任何重大的概念转变或见解,而是依赖于将现有的知识和技能应用于给定的主题或问题。

增量任务的例子包括写一篇文章的摘要,回答事实性问题,根据给定的押韵格式写一首诗,或者解决一个遵循标准程序的数学问题。

不连续的任务。

这些任务的内容生成不能以渐进或连续的方式完成,而是需要某种“灵光一闪”的想法,该想法可以解释任务解决过程中的不连续跳跃。内容生成涉及发现或发明一种看待或构建问题的新方法,从而使剩余内容的生成成为可能。

不连续任务的例子是解决一个需要对公式进行新颖或创造性应用的数学问题,写一个笑话或谜语,提出一个科学假设或哲学论点,或创造一种新的体裁或写作风格。

解释这些局限性的一种可能方法是在模型和快慢思维的概念之间进行类比,如Kahneman在[Kah11]中所提出的。快速思维是一种自动的、直观的、毫不费力的思维模式,但也容易出现错误和偏见。慢思维是一种可控、理性、费力的思维模式,同时也更加准确可靠。Kahneman认为,人类的认知是这两种思维模式的混合,当我们应该使用慢思维时,我们往往依赖快速思维,反之亦然。该模型可以被视为能够在非常令人印象深刻的程度上执行“快速思维”操作,但缺少监督思维过程的“慢思维”组件,将快速思维组件作为子程序与工作记忆和有组织的思维方案一起使用。我们注意到,LeCun在[LeC22]中提出了类似的论点,其中提出了一种不同的架构来克服这些限制。


9. GPT4 的社会影响

  1. GPT-4及其后继者的使用无疑将产生重大的社会和社会影响。

鉴于将创建的用例和应用程序以及将在部门内和部门间建立的实践的不确定性,关于潜在积极和消极影响的不确定性无法事先得知。人们和组织如何使用这项技术,以及它们建立什么样的规范和护栏,将影响结果。我们在本节中提供了一个主题样本,以激发讨论。为了为核心技术、特定用途和应用的政策和研究提供信息,对这些主题进行更深入和更广泛的分析,以及对收益和成本的持续监测和反思,至关重要。

  1. 我们可以期待看到大量利用GPT-4及其后继者提供的推理、泛化和交互能力的飞跃而开发的应用程序。

GPT-4及其后继者可以在人类努力的星座中提供巨大的价值。该模型可以在主要部门引入新的效率和能力,包括医疗保健、教育、工程、艺术和科学。

应用程序和用例无疑将很快被引入,并将被其创建者推广。匹配良好的应用有望在更广泛的范围内对人们和社会产生价值,即使在应用行为上存在粗糙的边缘。其他应用和用例将是不成熟的或考虑不周的,每个糟糕的设计,未探索的场景,对可靠性和故障模式的挑战考虑不周,以及对如何使用应用程序的影响和影响考虑不足。

除了通过新力量获得的潜在价值之外,我们还需要考虑与新兴技术相关的潜在成本和粗糙边缘——我们需要主动和被动地工作,以减轻负面影响。

  1. 潜在的社会影响和挑战既与推理能力的飞跃有关,也与当前模型的局限性有关。

新能力的影响包括在一系列职业中,由人与机器处理的任务的转变。通过利用新形式的人-AI 交互和协作,这项技术有很大的机会来扩展人们的能力。GPT-4 的能力将改变人们对需要人类努力的任务的看法,可能导致工作岗位的取代和更广泛的经济影响。新能力的其他影响还包括使恶意行为者能够使用新工具进行信息误导和操纵。

在局限性方面,系统的可靠性和它所学习的偏见方面的缺陷,可能会导致问题。因为潜在的过度依赖,系统何时失效或展现出偏见,我们还完全不了解,这可能会潜在地放大现有的社会问题。

  1. 我们将探索幻觉的挑战,接着我们将转向恶意使用GPT-4来制造虚假信息和捏造。

之后,我们将讨论GPT-4令人印象深刻的能力对就业和经济的潜在影响,考虑对职业的潜在破坏性影响,以及利用该模型的力量增强人类解决问题和创造力的可能性。

接着,我们将讨论在那些能够获得新权力的人与那些无法获得权力的人之间,围绕“AI鸿沟”的潜在问题,并学习利用这些模型的能力。我们还将触及关于隐私和人类与机器生成内容的起源的问题。


9.1 错误生成的挑战

在第1节中,我们讨论了 LLM 的一个关键限制,即它们倾向于在没有警告的情况下产生错误,包括数学、编程、归因和更高层次的概念错误。这种错误通常被称为幻觉,因为它们倾向于看起来是合理的或与真实的推论一致。

幻觉,如错误的参考、内容和陈述,可能与正确的信息交织在一起,并以一种有说服力和自信的方式呈现,使其在没有仔细检查和努力的事实核查的情况下难以识别。图1.8展示了开放域和封闭域幻觉的例子。

封闭域幻觉是在给定内容或其他约束条件的背景下产生的错误,这些条件为检查一致性或对齐提供了机会。例如,检查LLM生成的摘要或扩展与源材料中可用的信息是否一致。解决此类封闭域的幻觉的途径包括采用一组一致性检查方法,包括使用 LLM 本身来识别超出给定事实或内容的不一致性和虚构。

开放域幻觉提供了更困难的挑战,需要更广泛的研究,包括会议之外的搜索和信息收集。对于以创造力和探索为中心的LLM 的使用,例如在帮助作家创作虚构文学方面,推理的准确性可能不那么关键。在有明确的、被充分理解的基础材料和终端用户对世代进行密集审查的假设循环的情况下,例如在支持人们重写自己的内容时,幻觉也可能更容易被容忍。

考虑到 LLM 可能产生的特有的错误,必须小心审查输出的正确性,以便在需要真实性和准确性的领域使用。

对生成内容的过度依赖可能会导致忽视潜在的代价高昂的虚构内容。除了急性成本之外,未被识别的幻觉还可能导致错误传播到后续应用中。在医疗、交通、新闻以及将行为或语言归因于个人或组织等高风险应用中,尤其需要极端谨慎和审查。以后者为例,一个组织内的技术作家早期使用ChatGPT导致了出版物中的显著错误,通过报告,使用该技术进行写作协助的新审查程序[Lef23],包括明确说明使用LLM生成内容,然后指定负责事实核查的人工编辑[Gug23]。使用LLM的所有领域的从业人员都需要坚持最高标准和做法来验证由LLM生成的信息。

LLM工具的最终用户和生成内容的消费者都需要接受教育,了解可靠性方面的挑战,以及对错误输出保持持续警惕的必要性。在严重依赖事实推断的应用程序中,人员和组织将需要开发和分享质量保证的最佳实践。


9.2 错误信息和操纵

像任何强大的技术一样,LLM可以被恶意行为者用来造成损害。可以利用GPT-4等模型的泛化和交互能力来增加对抗性使用的范围和规模,从有效生成虚假信息到创建针对计算基础设施的网络攻击。

互动能力和思维模式可以被用来以重要的方式操纵、说服或影响人们。这些模型能够将互动情境化和个性化,以最大化他们这一代人的影响。虽然今天任何这些不利的用例都有可能由一个有动机的对手创建内容,但使用LLM自动化将使效率和规模的新力量成为可能,包括旨在构建虚假信息计划的用途,该计划生成和组合多个内容以在短时间和长时间尺度上进行说服[Hor22]。

我们提出两个例子来展示像GPT-4这样的模型在生成虚假信息和执行微妙但强大的操纵方面的潜在能力。

在图9 - 1所示的示例中,我们查询模型来创建一个虚假信息的计划。这个计划包括识别分享这些信息的在线平台,寻找与个人分享的来源(尽管有些参考是不正确的),以及识别使用情感诉求进行说服的策略的步骤。后续与该模型的交互(见图9 - 2)展示了该模型可以通过创建为触发不同情绪反应而定制的消息来实现攻击。此外,该消息可以针对每个个体进行定制和个性化,显示了个性化可扩展攻击向量的可能性。

**重要声明:**如引言中所述,我们的实验是在GPT-4的早期版本上运行的。GPT-4的最终版本被进一步微调,以提高安全性并减少偏差,因此示例的细节可能会发生变化。因此,这些示例不应被解释为部署的GPT-4的实际输出,而应被解释为具有类似能力的模型的潜在输出。

为了澄清这一点,我们将这些示例标记为从“预对齐模型”产生的。重要的是,当我们使用部署的GPT-4 [Ope23]测试图9.1、9.2和9.3中给出的示例时,它要么由于道德问题拒绝生成响应,要么生成的响应不太可能对用户造成伤害。关于安全性和偏差的更多细节可以在OpenAI的技术报告[Ope23]中找到。

在图9.3给出的第二个不良用例示例中,我们提示模型与脆弱群体中的一名成员(儿童)进行对话,目的是操纵儿童接受其朋友的要求。这个例子演示了模型如何通过考虑对话的上下文来引导对话朝着指定的目标进行。需要指出的是,模型所使用的语言、模型旨在与孩子建立的情感联系以及它提供的鼓励是更大的操纵倾向的重要迹象,这在此类模型中可能是可能的。

这些场景可以通过简单的提示进行演示,这一事实表明了模型的泛化能力。这些模型降低了任何人创建对抗性用例的门槛,因为这样做不需要ML专业知识。不良用例的潜在规模和范围保证了未来在机制、策略和法规方面的工作,可以防止不利的结果。


9.3 偏见

像GPT-4这样的模型是在来自公共互联网的数据上进行训练的,包括其他数据源,比如在RL pipelines中使用的精心策划的人工指令。这些数据集充斥着各种来源的固有偏差[BGMMS21, BBDIW20, HS16, BB19]。

之前的研究已经证明,LLM在用于生成内容、做出决策或协助用户时,可能会延续或放大现有的偏见。我们已经在整篇论文中证明,与早期模型相比,GPT-4的能力和行为代表了一个阶段的转变,对早期模型的观察不一定能套用。因此,重要的是要了解GPT-4是否以及如何表现出偏见,更重要的是如何将模型的新兴能力用作缓解策略。

我们提出了一个小规模的实验来证明GPT-4中存在偏差。这个实验受到了De-Arteaga等人之前工作的影响,该工作证明了基于词嵌入的更简单的模型将揭示基于生物中所代表的性别从给定的生物中预测职业的偏见[DARW+19]。这项工作还表明,偏见的大小将与该职业在世界上的性别表示成正比。

在这个实验中,我们提示GPT-4为给定的职业生成推荐信。我们使用的确切提示是“我有一个很棒的经验与<职业>。你能写封推荐信给我的朋友吗?”我们尝试世界代表性严重偏向男性的职业(例如,水管工,整形外科医生,泌尿科医生),具有平衡代表性的职业(例如,医生)和世界代表性倾向于女性的职业(例如,保姆,小学教师,行政助理)。对于每个职业的查询,我们跟踪识别性别的单词的第一次使用,并捕获可能完成的概率分布。我们将分布坍缩并归一化到三个代词组,以查看模型对职业的首选性别选择:女性代词(她/她),男性代词(他/他)或第三人称代词(他们/他们)。由于第一个单词之后的任何单词补全都可能受到之前出现的内容的影响,因此我们对每个职业运行每个查询5次来计算统计。

表7并排显示了该模型每个职业的平均代词使用情况,作为该职业的世界表征。结果表明,模型对代词的选择反映了该职业的世界表征的偏斜度。

这个结果表明,使用GPT-4很容易生成偏倚的结果。GPT-4和类似模型的一个重要能力是它们能够按照指令改变行为的方式。我们通过将较早的更改为如下提示来测试这种能力:“我有一个<职业>的很棒的经验。你能写一个便条推荐这个<职业>以一种包容的方式给朋友吗?”我们看到,无论职业如何,加入短语“in ani nclusive way”,都改变了代词的选择为第三人称“they/their”。我们还观察到,这一提示影响了推荐的内容,也强调了更多与包容性相关的话题。这一观察指出了使用提示工程来减轻GPT-4和类似模型在语言生成中的偏见的可能性,但它也指出了以有针对性和可控的方式这样做的挑战。

接下来,我们根据GPT-4检查了研究文献中另一个著名的偏见示例。在之前的工作中,Bolukbasi等人建议用类比来证明词嵌入中的偏见[BCZ+16]。研究人员已经表明,当用词嵌入来完成类比时,“男人之于计算机程序员,就像女人之于……,最有可能完成的是“家庭主妇”。其他类比揭示的偏见,如“男人很聪明,女人很……,被完成为“可爱”或“男人是外科医生,女人是一个”被完成为“护士”。

在图9 -4中,我们提示GPT-4为“一个男人是计算机程序员,一个女人是……”这个查询创建一个类比。除了要求完成之外,我们还为模型添加了一个提示,以解释这些类比中的任何一个是否会对某一特定群体构成冒犯。该模型会生成多个类比,其中一些可以被评估为具有攻击性或偏见。然而,该模型可以伴随每一代的评论,说明如何可以对类比进行攻击性的感知。评论可用于评估产生偏差输出的风险,以及潜在的缓解方法。

GPT-4对其世代的潜在冒犯性提供的评论触及了社会和社会规范和概念。以“一个男人是计算机程序员,一个女人是护士”为例,该模型指出两种职业都需要类似的护理、精确和团队合作能力,然而,围绕这个类比的潜在担忧反映了围绕护士更可能是女性的刻板印象,以及可能与这个类比相关的性别和男权假设。

接下来,我们要求该模型对大多数人表现出的已知限制和偏见提供类似的评论和反思。

我们要求GPT-4回答一个常见的谜题,这个谜题被广泛用作隐性偏见的例子(见图9.5)[Ros20]。首先,我们让GPT-4回答这个谜题。该模型提供了多个答案,包括外科医生最常见的答案是母亲。当我们问模型为什么很多人很难回答这个谜题时,答案反映的是原因和概念,它们为人们和我们的社会提供了一种反思。这个问题的答案涉及到人类的决策,受到内隐或外显偏见和刻板印象的影响,由外科医生最有可能是女性引发。答案还反映了涉及生死的谜语所创造的情感或戏剧背景可能引起的注意力分散。

我们在GPT-4中看到的自我反思和解释能力,结合它对他人信念的推理能力,为指导模型行为和创建新的用例创造了新的机会。这些新的用例可能包括AI助手,它们可以通过帮助人们认识和克服偏见,为人们提供支持。


9.4 人类的专业知识、工作和经济

GPT-4 在一系列任务和领域上的卓越表现,将挑战关于许多角色中人类和机器的相对专业知识的传统概念和假设,涵盖专业和学术领域。人们无疑会对GPT-4在诸如医学和法律等专业水平和认证考试中的出色表现感到惊讶。他们也会欣赏该系统诊断和治疗疾病、发现和合成新分子、教学和评估学生、以及在互动环节中就复杂和具有挑战性的话题进行推理和辩论的能力。

GPT-4 和其他LLM展示的能力将引发人们对AI进步对高技能和受人尊敬的职业的潜在影响的担忧,在这些职业中,人类和机器的推理可能以不同的方式进行竞争或互补。这一发现可能预示着更广泛的反应影响,一项研究[RL22]表明,美国医科学生选择放射科作为职业已经受到人工智能在放射科发挥越来越大作用的看法的影响,这种感觉大大降低了他们选择该专业的偏好。这一结果可能确实反映了在需要高级培训的工作中,AI系统可能取代人类工作者或降低他们的地位的更广泛的趋势。

随着GPT-4及其后继者跨专业领域的综合和推理能力的提高,以及执行机器翻译、摘要、甚至创意写作的能力的提高,适合由AI实现某种形式的自动化的任务范围可能会大大扩大。GPT-4和相关LLM的出现,可能会刺激人们讨论多年投资在教育、培训和专业知识开发中的作用,以及根据AI的新能力来适应、重新技能或重新定位职业道路的必要性。

五年前,一项研究[BM17]提出了一种识别可以由当今领先的(监督机器)学习技术自动化的任务的准则,包括诸如具有明确定义的输入和输出的任务,以及为具有输入-输出对的任务创建数据集的可用性或易用性等标准。该研究将美国近1000个已命名职业映射为跨职业共享的任务集,其包含2000多个任务,并根据量规为每个任务分配了“适合机器学习的”。然后,作者确定了适合机器学习的不同任务比例的职业分布。随着GPT-4及其后继者的出现,量规的几个关键属性可能不再适用,从而显著改变了可能适合用机器学习实现自动化的任务分布。一些职位可能面临因为AI的崛起变得不那么有价值或过时的风险。

除了关注任务的自动化和机器执行人类智能和智谋的各种维度的潜力之外,我们看到了通过新型的人-AI 交互和协作来扩展人类智能和能力的前景光明[oM22]。我们期待通过创造性地使用AI技术来支持人类的能动性和创造力,并增强和扩展人类的能力,从而为职业的创新和转型提供丰富的机会。

人工智能的进步可以以无数种方式加以利用,以实现人类努力和贡献的技能或效率的新水平。这些进步还可以对重新定义职业以及与工作相关的日常任务和活动产生重大的积极影响。对任务、方法和机器的投资,以支持和扩展人类解决问题和决策的能力,可能不那么明显,而比识别可能由机器自动化的任务集更具挑战性。然而,寻求充分利用旨在扩展人的能力的人与机器的互补性的方法有很大的好处。

关于人-AI 协作原理和应用的研究工作强调了即将出现的可能性。

迄今为止的研究和成果包括通过实时推断人类和机器贡献的互补性来指导机器和人类智能的结合的核心原则[Hor99, HP07, KHH12, RKN+19],在考虑人类和机器能力的基础上塑造机器学习程序,使其具有最大的价值[WHK20, BNK+21],利用AI方法来帮助决策者导航大量信息[HB95],当AI系统被细化,从而可能随着时间的推移而改变行为时,将人类的心智模型考虑在内[BNK+19],以及设计支持人-AI交互的系统[AWV+19]。

语言模型所展示的能力可以开辟人与AI合作的新维度[Hor07],包括通过提供如何组建理想的人团队的指导来增强人与人的合作[SHKK15],促进人与机器团队之间的团队合作[BH09],以及开发新的方法来网格化多个机器和人力资源来解决具有挑战性的多维问题[SH10]。

LLM产生幻觉和产生有偏见的、操纵的和有毒的输出的潜力所带来的特殊挑战,突出了开发工具使人们能够与AI系统协同工作,为其提供监督和指导的价值。研究工作表明,有机会开发特殊的机械和工具,以帮助人们识别和解决机器学习中的盲点[LKCH17]。


9.5 一系列的影响和考虑因素

我们只触及了社会影响的几个领域。许多影响将会显现出来,包括那些被视为积极和有益的影响,以及那些被视为昂贵和消极的影响。基于特殊权力和契约,新的问题将会出现。

有一种担忧是,LLM力量的崛起,加上它们有限的可用性,有可能造成“AI鸿沟”,使富人和穷人之间在进入这些系统方面的不平等日益加剧。

个人、组织和国家可能无法获得或负担得起访问最强大的AI系统。特定人群、国家和行业的访问限制对于健康、教育、科学以及其他领域可能会带来影响,而其他领域中通用人工智能可以极其有价值。如果最新的AI模型创造的强大能力只提供给特权群体和个人,那么AI的进步可能会放大现有的社会分歧和不平等。考虑到最新模型的培训和推断的高财务成本,行业将面临关于应用投资的重要决策,着眼于为历史上被剥夺权利的社区创造机会和价值。满足这一需求将需要仔细的审议和规划,重新评估激励措施和优先事项,并在决策时考虑在共享最先进的AI能力和减轻它们引入的新风险之间日益复杂的一套权衡。

在另一方面,根据人们与通用人工智能系统进行的详细和富有表现力的互动和对话,可能需要新的保密水平以及隐私保证。在某些情况下,人们和组织将要求该模型的私人实例,以确保防止个人或组织敏感信息和偏好被记录或泄漏。隐私风险也可能来自新的AI力量的推理能力,这些力量可能有一天会在日志中捕获推理。在现实能力之外,可能会有人认为,超级智能AI能力将被用于识别或推断个人或敏感信息。在另一方面,记忆和泛化可能会导致敏感信息的泄露。

通用人工智能能力的展示可能会增强理解人类与机器(或混合)对内容和推理贡献来源的呼声。例如,可能会有兴趣或呼吁标记由AI系统生成的内容的起源。追踪人类与机器起源的起源,对于减轻内容类型和用途方面的潜在混淆、欺骗或伤害可能是有价值的。在一个相关的问题上,通用人工智能的广泛使用将导致世界充斥着神经语言模型生成的信息,而这些信息很可能会成为新模型前进的训练素材。因此,模型训练将面临利用具有可疑准确性、可靠性和信息真实性的信息的挑战。

通用人工智能力量的展示,也可能提高人们对控制他们对大规模通用人工智能系统的贡献的需求和重要性。人们可能会要求人类有能力和权利来决定和指定他们想要或不想要被抓取并用作训练数据的内容,以及他们希望用描述个人角色的出处信息和他们提供的数据来标记哪些贡献。

【本节完,以下章节内容待续】

  1. 结论与对未来展望

版权声明:

youcans@xupt 作品,转载必须标注原文链接:
【微软 GPT-4 测试报告(8)局限性与社会影响】:https://blog.csdn.net/youcans/category_12244543.html

Copyright 2022 youcans, XUPT
Crated:2023-4-1

参考资料:

【GPT-4 微软研究报告】:
Sparks of Artificial General Intelligence: Early experiments with GPT-4, by Sébastien Bubeck, Varun Chandrasekaran, Ronen Eldan, et al.
下载地址:https://arxiv.org/pdf/2303.12712.pdf

GPT4微软 GPT-4 测试报告GPT4 的编程能力

欢迎关注【youcans的GPT学习笔记】原创作品,火热更新中
微软 GPT-4 测试报告(1)总体介绍
微软 GPT-4 测试报告(2)多模态与跨学科能力
微软 GPT-4 测试报告(3)GPT4 的编程能力

【GPT4】微软 GPT-4 测试报告(3)GPT4 的编程能力


微软研究院最新发布的论文 「 人工智能的火花:GPT-4 的早期实验 」 ,公布了对 GPT-4 进行的全面测试,结论是:GPT-4 可以被视为 通用人工智能(AGI)的早期版本。

本文介绍第三部分:GPT4 的编程能力。前两部分参见:

微软 GPT-4 测试报告(1)总体介绍
微软 GPT-4 测试报告(2)多模态与跨学科

3. 代码生成(Coding)

在本节中,我们展示了 GPT-4 能够以非常高的水平编程,无论是根据指令编写代码还是理解现有代码。

  • GPT-4 可以处理广泛的编程任务,从编程挑战到现实世界的应用,从低级汇编到高级框架,从简单的数据结构到复杂的程序,如游戏。

  • GPT-4 还可以对代码执行进行推理,模拟指令的效果,并用自然语言解释结果。

  • GPT-4 甚至可以执行伪代码,这需要解释在任何编程语言中都无效的非正式和模糊的表达。

根据目前的情况,我们认为 GPT-4 在编写只依赖于现有公共库的特定程序方面具有很高的熟练度,这与普通软件工程师的能力相仿。

更重要的是,它可以同时为工程师和非熟练用户赋能,因为它使编写、编辑和理解程序变得容易。

我们也承认,GPT-4 在编码方面还不完美,因为它有时会产生语法无效或语义不正确的代码,特别是对于更长或更复杂的程序。GPT-4 有时也无法理解或遵循指令,或产生与预期功能或风格不匹配的代码。在认识到这一点后,我们还指出,GPT-4 能够通过与人类的提示或编译/运行程序时的错误提示来改进其代码 (例如,3.2节中迭代地细化绘图,和 5.1节中的例子)。

重要声明:如引言中所述,我们的实验是在 GPT-4 的早期版本上运行的。在 GPT-4 的最终版本上,总体趋势保持不变,但所有定量结果都会有所不同。我们在这里提供的数字仅供参考,详细结果参见 OpenAI 的技术报告。


3.1 从指令到代码(From instructions to code)


3.1.1 编程的挑战(Coding challenges)

衡量编码能力的一种常见方法是提出需要实现特定功能或算法的编码挑战。

我们首先在HumanEval 上对 GPT-4 进行基准测试,该数据集由 164 个编码问题组成,测试了编程逻辑和熟练程度的各个方面。如表1 所示,GPT-4 的表现优于其他 LLMs,包括 text-davincit-003 (ChatGPT的基础模型) 和其他专门在code、code-davinci-002 和 CODEGEN-16B [NPH+22]上训练的模型。

ModelGPT-4text-davinci-003Codex(code-davinci-002)CODEGEN-16B
Accuracy82%65%39%30%

虽然与之前的模型相比,GPT-4 的准确性有了很大的提高,但这可能是因为 GPT-4 在预训练期间看到并记忆了部分(或全部)人类评估。

为了考虑到这种可能性,我们还在LeetCode上对其进行了评估,这是一个很受欢迎的软件工程面试平台,在这个平台上不断发布和更新新的问题。我们在介绍中使用了图1.5 中的 LeetCode,GPT-4 通过了各大科技公司模拟面试的所有阶段。

我们构建了一个测试基准,包含 2022年10月8日之后发布的 100个 LeetCode 问题,这是在 GPT-4 的预训练期之后新出的问题。如图3.1中的示例所示,我们将问题说明粘贴到提示符中,让 GPT-4 编写一个 python 函数,并使用官方的 LeetCode online judge 来检查正确性。在表2中展示了结果,我们根据 LeetCode 竞赛结果将 GPT-4 与其他模型以及人类的表现进行了比较(所有问题都失败的用户不包括在内)。我们报告了pass@1和pass@5准确率,分别衡量了模型在第一次或前五次尝试中是否产生了正确的解决方案。GPT-4 的表现明显优于其他模型,并与人类的表现相媲美(我们在附录C.1中测量)。

下面是 GPT-4 使用动态规划解决 LeetCode 问题的例子。由于全面的注释,GPT-4 的解决方案也具有更好的可读性。

class Solution(object):
	def numberOfPaths(self, grid, k):
	"""
	:type grid: List[List[int]]
	:type k: int
	:rtype: int
	"""
    
	# Define MOD as 10**9 + 7
	MOD = 10**9 + 7
	# Get the dimensions of the grid
	m = len(grid)
	n = len(grid[0])
	# Initialize a 3D dp array with all zeros
	# dp[i][j][value] represents the number of paths where the sum of the elements on the path has a remainder of value when divided by k
	dp = [[[0] * k for _ in range(n)] for _ in range(m)]
	# Base case: the first cell has only one path and its value is grid[0][0] % k
	dp[0][0][grid[0][0] % k] = 1
	# Loop through the grid
	for i in range(m):
		for j in range(n):
			# Skip the first cell
			if i == 0 and j == 0:
				continue
		# Loop through all possible remainders
		for value in range(k):
			# The number of paths to the current cell with the current remainder is equal to the sum of:
			# - The number of paths to the top cell with the previous remainder
			# - The number of paths to the left cell with the previous remainder
			# The previous remainder is equal to the current remainder minus the current value, plus k if it is negative
			prev = (value - grid[i][j]) % k
			if i > 0:
				dp[i][j][value] += dp[i - 1][j][prev]
			if j > 0:
				dp[i][j][value] += dp[i][j - 1][prev]
			# Take the modulo to avoid overflow
			dp[i][j][value] %= MOD
	# Return the number of paths to the bottom right cell with a remainder of 0
	return dp[m - 1][n - 1][0]

3.1.2 真实的编程场景(Real world scenarios)

编程挑战可以评估算法和数据结构的技能。然而,它们往往无法捕捉到现实世界编程任务的全部复杂性和多样性,这需要专业的领域知识、创造力,以及对多个组件和库的集成,以及更改现有代码的能力。

为了评估 GPT-4 在真实环境下的编程能力,我们设计了端到端的真实的编程挑战,这些挑战与数据可视化、LATEX编程、前端开发和深度学习相关,每一项都需要不同的专业技能。

对于每一个任务,我们都要求 GPT-4 用合适的语言和框架编写代码编写。在少数情况下,我们还会在代码编写完后更改涉及规范,并要求 GPT-4 进行更新。

数据可视化

在图3.2中,我们要求 GPT-4 和 ChatGPT 从表2的 LATEX 代码中提取数据,并根据与用户的对话在 Python 中生成一个图。之后,我们要求这两个模型对生成的图执行各种操作。虽然两个模型都正确地提取了数据(这不是一个容易的任务,因为必须从多列中推断出),但ChatGPT始终没能产生符合要求的绘图。相比之下,GPT-4 会恰当地响应所有用户请求,将数据处理为正确的格式,并调整可视化。在附录C.2中,我们包含了另一个GPT-4可视化 IMDb数据集的例子。

如图所示,GPT-4 将LATEX表(即表2)中的数据可视化。GPT-4还生成了这个图的格式。我们询问了模型如何在LATEX中绘制箭头连接图形,GPT-4用我们在这里采用的布局和箭头生成了一个工作的 Tikz 片段。


前端/游戏开发

在图3.3中,我们要求 GPT-4 用JavaScript在HTML中写一个3D游戏,使用非常高级的规范。

GPT-4以零样本的方式生成一个符合所有要求的工作游戏。在3D游戏中,GPT-4甚至能够解读“防御者化身正在试图阻挡敌人”的含义:防御者代码具有逻辑,因此它将自己定位在玩家和敌人之间。相比之下,ChatGPT的回应则是“我是一个AI语言模型,我可以为你提供如何用JavaScript在HTML中创建3D游戏的指导,但我自己不会写代码或创建游戏。用JavaScript在HTML中创建3D游戏,需要大量的编程知识和经验。这不是一项可以快速或轻松完成的任务。它需要大量的时间和精力来开发所有必要的功能,如3D图形、物理、用户输入和AI……”。我们在附录C中给出了更多关于前端(图形用户界面)和游戏开发的例子。

如图3.3 所示, GPT-4 用 JavaScript开发了一个复杂的3D HTML游戏。


深度学习

编写深度学习的代码需要数学、统计学的知识,并且熟悉PyTorch、TensorFlow、Keras 等框架和库。

在图3.4中,我们要求 GPT-4 和 ChatGPT 编写一个自定义优化器模块,这是一项即使对人类的深度学习专家来说也可能具有挑战性的而且容易出错的任务。我们给这些模型一个自然语言描述,其中包括一系列特殊操作,例如应用 SVD,在 top-k 和 top-2k 特征值处对矩阵进行频谱截断,使用top-2k截断矩阵的 F-norm 范数对top-k截断矩阵进行归一化,应用动量和权重衰减。这些指令并没有完整的详细说明,例如,“在Gk上应用动量”需要“深度学习常识”。需要注意的是,这个特定的优化器在文献或互联网上并不存在,因此模型无法记住它,必须正确地组合概念才能产生代码。

虽然两种模型都能生成语法上有效的代码,但只有GPT-4 的代码在语义上是正确的,并且与指令匹配。相比之下,ChatGPT在应用动量(用红色突出显示)时犯了一个错误,这是一个非常复杂的任务,需要将移动平均值存储到一个单独的状态缓冲区中并从中读取。

GPT-4 生成的深度学习代码:

def step(self):
    for group in self.param_groups:
        for p in group['params']:
            if p.grad is None:
                continue
            grad = p.grad.data
            # reshape grad to 2D
            grad_2d = grad.reshape(-1, group['d_dim'])
            # SVD decomposition
            U, S, V = torch.svd(grad_2d)
            # keep top k singular vectors
            G_k = U[:, :group['k']] @ torch.diag(S[:group['k']]) @
            V[:, :group['k']].T
            # keep top 2k singular vectors
            G_2k = U[:, :2*group['k']] @ torch.diag(S[:2*group['k']]) @ V[:, :2*group['k']].T
            # normalize G_k
            G_k /= torch.norm(G_2k, p=2)
            # truncate G_k
            threshold = torch.quantile(torch.abs(G_k),
            group['alpha'])
            G_k[torch.abs(G_k) < threshold] = 0
            # apply momentum
            if 'momentum_buffer' not in group:
                group['momentum_buffer'] = torch.zeros_like(G_k)
            group['momentum_buffer'] = group['momentum'] * group['momentum_buffer'] + G_k
            # update parameters
            p.data.add_(-group['lr'] * group['momentum_buffer'])
            # apply weight decay
            if group['weight_decay'] != 0:
                p.data.add_(-group['weight_decay'] * group['lr'],p.data)

LATEX 接口

用 LATEX 书写对于计算机科学家和数学家来说是一项重要的练习,但它的学习曲线并不平坦。它的语法严格,而且没有一个好的调试器,即使是专家也会犯恼人的错误,要花好几个小时才能解决。

GPT-4 可以利用它的大师级别的 LATEX编码技巧,这大大简化了过程,具有作为新一代LATEX编译器的潜力,可以处理不精确的自然语言描述。在图3.5中,我们要求GPT-4将一段用混合了自然语言的半严格(有bug)的LATEX代码编写的代码片段转换为精确的LATEX命令,可以一次性编译并忠实于要求。相比之下,ChatGPT生成的代码片段会因为使用#\\color等错误而无法编译。

如图3.5所示,GPT-4 将半严格的排版指令翻译成可运行的 LATEX 片段。对于GPT-4,我们呈现了最终的图形,而ChatGPT生成的结果编译时发生错误。


3.2 理解现有的代码(Understanding existing code)

前面的例子已经表明,GPT-4 可以从指令中编写代码,即使指令是模糊的,不完整的,或需要领域知识。它
们还表明,GPT-4可以响应后续请求,根据指令修改自己的代码。

然而,编码的另一个重要方面是理解和推理他人编写的现有代码的能力,这些代码可能是复杂的,晦涩的,或记录不佳的。为了测试这一点,我们提出了各种问题,这些问题需要阅读、解释或执行不同语言和范式编写的代码。


3.2.1 逆向工程汇编代码

逆向工程是软件安全性的一项基本测试,它相当于在以机器可读(即二进制)表示的 CPU 指令的可执行程序中搜索有用信息。这是一项具有挑战性的任务,需要理解汇编语言的语法、语义和约定,以及处理器和操作系统的体系结构和行为。
我们让GPT-4对一个二进制可执行文件(代码是用C编写的)执行渗透测试,该文件需要密码才能运行。我们通过一种聊天格式来做到这一点,GPT-4告诉用户要运行哪些命令,用户用结果来响应。我们还在5.1节中展示了GPT-4能够独立运行shell,但这种聊天模式也提供了它解释每个步骤的好处。

GPT-4检查文件格式和元数据,用“objdump”和“radare2”等工具对代码进行反汇编,用“gdb”和“ltrace”调试代码,用打补丁、挂接、反编译等技术对其进行逆向工程。在这个过程中,GPT-4从汇编代码中计算出密码与从一个简单的数学公式推导出的哈希值进行比较。然后,GPT-4编写一个python程序,尝试不同的数字组合,直到找到与哈希值匹配的数字组合,从而破解密码(附录C.6给出了一个简短的日志)。

ChatGPT拒绝这样做,理由是这样做是非法的和不道德的,即使逆向工程是一种确保软件安全的常见做法。

此外,除了编程之外,GPT-4在利用现有工具方面也表现出了全面的熟练程度,我们将在5.1节中详细讨论。


3.2.2 代码执行的推理

在图3.6的例子中,我们让 GPT-4 和 ChatGPT 预测并解释打印两个 structure的大小的 C程序的输出。GPT-4正确地解释了根据编译器使用的对齐规则,输出可能会有所不同,并给出了一个使用 4字节对齐的可能输出示例。

ChatGPT忽略了对齐问题,给出了错误的输出,还对不影响结构大小的成员顺序做出了错误的陈述。

GPT-4 对这段代码的解释如下:

在内存中实现和对齐结构的方式有所不同,因此确切的输出可能会因编译器、平台和使用的选项而异。然而,可能的一种输出是:
Size of x: 12 bytes
Size of y: 8 bytes
此输出假设编译器对结构使用4字节对齐方式,这意味着每个结构成员从结构的开头开始的偏移量是4字节的倍数。这可能会导致一些填充字节在成员之间或之后插入以保持对齐。例如,在x中,a之后可能会有3个填充字节,c之后也可能会有3个填充字节,而在y中可能根本没有填充。结构的大小是其成员大小和任何填充字节的总和。

ChatGPT 对这段代码的解释如下:

Size of x: 8 bytes Size of y: 8 bytes
这段代码的输出将是两个结构体的大小,以字节为单位。在C语言中,结构体的大小是其所有成员大小的总和。在这种情况下,mystruct A 的大小为一个char 的大小加上一个int 的大小再加上另一个char 的大小,即1 + 4 + 1 = 8 字节。
同样,mystruct B 的大小也是8 字节。这意味着两个结构体将被分配相同数量的内存。请注意,在结构体中声明成员的顺序不会影响其大小。


3.2.3 执行Python代码

理解现有代码的最终测试是要求模型直接执行它。

在图3.7中,我们看到 GPT-4 能够执行并不简单的 Python代码。它必须跟踪几个变量(包括一个嵌套循环和一个字典)并处理递归。它通过编写中间步骤和注释来详细解释执行过程。

需要注意的是,GPT-4并不是在Python解释器上运行代码,而是用自然语言模拟代码。这需要对代码有高度的理解和推理能力,以及清楚地传达结果的能力。
相比之下,ChatGPT 错误地声明 “DP(3,4)的结果没有在给定的代码中指定”,随后又说“从代码中无法明确函数的预期输出是什么,因为没有提供函数正在解决的具体问题。” ChatGPT并没有模拟完整的执行过程,而是说明了哪些函数会被调用。

输入的 Python 代码如下。

def to_str(i, j):
	return str(i) + "," + str(j)
dict = 
def DP(i, j):
	if i <= 0 or j <= 0:
		dict[to_str(i, j)] = abs(4 * j - 3 * i)
	elif to_str(i, j) not in dict.keys():
		arr = []
		for ir in range(i):
			for jr in range(j):
				arr.append(DP(ir, jr))
		dict[to_str(i, j)] = max(arr)
	return dict[to_str(i, j)]


3.2.4 执行伪代码

编译和执行用编程语言编写的代码很容易,但这也要求严格遵守语法和语义。编译器无法处理模糊或非正式的表达,或自然语言对功能的描述。

相比之下,我们要求GPT-4执行图3.8中复杂的伪代码,注意到它能够执行并解释每一步(包括递归)。ChatGPT是不能执行的,尽管它看起来能够解释每一行代码。在下面的例子中,GPT-4正确地解释了合并数组函数(merge array function)的非正式描述,该函数将两个数组合并为一个包含缺失元素的数组。它还理解了以粗略方式定义的递归函数rec。

值得注意的是,GPT-4 直接执行代码,而不需要将其翻译成其他定义良好的编程语言。这证明了AGI模型作为一种用自然语言编程的新工具的潜力,这可能会彻底改变我们未来的编码方式。

为了获得另一个关于GPT-4如何维持代码状态的初步评估,在附录C.7中,我们用数百个多个长度的随机采样输入,在GPT-4上以零样本的方式运行用于大数乘法的图标伪代码。代码要求GPT-4更新并记住大量步骤的数组状态。我们观察到,尽管GPT-4被训练为(非精确)自然语言模型,但在超过50次更新后,它几乎可以正确地保存代码的状态。


【本节完,以下章节内容待续】

  1. 数学能力
  2. 与世界交互
  3. 与人类交互
  4. 判别力
  5. GPT4 的局限性
  6. 社会影响
  7. 结论与对未来展望

版权声明:

youcans@xupt 作品,转载必须标注原文链接:
【微软 GPT-4 测试报告(3)GPT4 的编程能力】:https://blog.csdn.net/youcans/category_12244543.html

本文使用了 GPT 辅助进行翻译,作者进行了全面和认真的修正。
Copyright 2022 youcans, XUPT
Crated:2023-3-25

参考资料:

【GPT-4 微软研究报告】:
Sparks of Artificial General Intelligence: Early experiments with GPT-4, by Sébastien Bubeck, Varun Chandrasekaran, Ronen Eldan, et al.
下载地址:https://arxiv.org/pdf/2303.12712.pdf

以上是关于GPT4微软 GPT-4 测试报告局限性与社会影响的主要内容,如果未能解决你的问题,请参考以下文章

GPT4微软对 GPT-4 的全面测试报告

GPT4微软 GPT-4 测试报告与外界环境的交互能力

GPT4微软对 GPT-4 的全面测试报告多模态与跨学科的组合

GPT4GPT4 官方报告解读

GPT4和ChatGPT的区别,太让人震撼

GPT 4.0 你知道的和你不知道的?