GPT-4 即将问世!不仅能搞文字,还支持视频

Posted AI科技大本营

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了GPT-4 即将问世!不仅能搞文字,还支持视频相关的知识,希望对你有一定的参考价值。

  整理 | 郑丽媛

出品 | CSDN(ID:CSDNnews)

作为当前全球最火的生成式 AI,ChatGPT 仅用了 3 个月,就几乎搅动了整个科技圈,人们不断惊叹于 ChatGPT 的强大——但微软和 OpenAI 想要的,显然不至于此。

目前的 ChatGPT,由 GPT-3.5 系列中的模型微调而成。而据微软德国公司 CTO 兼 AI 部门主管 Andreas Braun 最新透露:GPT-4 就要问世了,还是多模态的。

GPT-4 的参数量将高达 100 万亿?

GPT,即 Generative Pre-trained Transformer,是由 OpenAI 提出的一系列非常强大的预训练语言模型。该系列模型基于互联网上的可用数据上进行训练,在 NLP(自然语言处理)方面表现卓越,可用于问答、文章生成、机器翻译、代码生成和对话 AI 等。

在 GPT 系列模型推出之前,传统的 NLP 模型都是针对特定任务(如分类、翻译等)进行训练的,并且往往使用监督学习,这就导致了两个问题:缺乏大量的标注数据,模型也无法概括和泛化任务。

于是,OpenAI 在 2018 年推出了 GPT-1,模型参数数量为 1.17 亿,通过未标注的数据训练出一种生成式语言模型,再根据特定的下游任务进行微调,将无监督学习作为有监督模型的预训练目标。

时隔一年后,2019 年具有 15 亿参数的 GPT-2 出现。与 GPT-1 相比,GPT-2 在结构上并没有太多创新与设计,使用了更大的数据集和更多的模型参数进行训练,以此强化并提高模型性能。

从 GPT-1 的 1.17 亿到 GPT-2 的 15 亿,超 10 倍的参数差距带来了性能上的飞跃。这似乎意味着,随着容量和参数量的增多,模型性能还有更大的潜力——因此,2020 年 GPT-3 的参数量翻了 100 倍:1750 亿,其预训练数据量也高达 45TB(GPT-2 是 40GB,GPT-1 约 5 GB)。

事实证明,海量参数确实让 GPT-3 具备了更强大的性能,它在下游任务表现的非常好。即便是复杂的 NLP 任务,GPT-3 也表现惊艳:可以模仿人类写作,编写 SQL 查询语句、React 或 javascript 代码等。

回顾 GPT-1 、GPT-2 和 GPT-3 这一路的发展,许多人对 GPT-4 寄予厚望,甚至还有传言称 GPT-4 的参数量将高达 100 万亿。

即将推出 GPT-4!

不过,去年 11 月 Cambrian AI 的分析师 Alberto Romero 就曾发文预测,GPT-4 不可能发展至 100 万亿参数:“对于下一代模型,OpenAI 会把重点放在优化数据处理而非参数大小上。因此 GPT-4 的规模可能与 GPT-3 相似,同时训练成本会更低。”

不久之后,OpenAI 首席执行官 Sam Altman 也在一次采访中,辟谣了 100 万亿参数的说法:“过于荒谬,关于 GPT-4 的谣言越传越离谱。”

距离 2020 年 GPT-3 问世已经过去两年多,业界一直都在期待 GPT-4 的发布,ChatGPT 的火爆更为此添了一把火。但对于 GPT-4,OpenAI 方面始终保密得很好,不论是发布时间还是规模大小,几乎都没有透露。

在今年 1 月,Sam Altman 表示:“我们总有一天会发布的,只要我们确定它足够安全。目前来看,GPT-4 的发布会比大家期待的要晚一些。但当我们真正发布时,人们一定会觉得,等待是值得的。”

现在看来,Sam Altman 所说的“晚一些”并没有让我们太久。

上周四,微软德国公司 CTO Andreas Braun 预告了 GPT-4 将在本周推出。除了发布时间,Andreas Braun 还透露了很关键的一点——GPT-4 将是多模态的。

这十分令人意外,因为 Sam Altman 曾在年 4 月对 Alberto Romero 明确表示:GPT-4 不会是多模态的,而是一个纯文本模型。

语言模型是多模态,这意味着什么?即:使用 GPT-4,可以生成文本、图像甚至视频。正如 Andreas Braun 所说:“有了 GPT-4,我们将拥有多模态模型,它将提供完全不同的可能性,例如视频。”

除此之外,Andreas Braun 还指出 GPT-4 将是一个“改变游戏规则”的技术,因为“他们教机器理解自然语言,然后以统计的方式理解以前只能被人类阅读和理解的内容”。与此同时,GPT-4 已基本“适用于所有语言”,例如可以用德语提问并得到意大利语的回答。

Andreas Braun 认为,通过多模态,微软(OpenAI)将“使模型全面化”。

“GPT-4 不是要取代人类工作”

听到 Andreas Braun 的“剧透”,一直关注着 GPT-4 动态的人们坐不住了:

  • “如果所有这些都得到证实,那下周将是疯狂的。我已经开始清理我的日程安排,为此腾出时间。”

  • “我希望他没有撒谎,哈哈!这听起来有点假。”

  • “到时候见!!希望千万不是炒作。”

但同时,也有不少人提出担忧:目前基于 GPT-3.5 的 ChatGPT,就已经威胁到部分人类岗位了,有了 GPT-4 岂不是更危险?

对此,微软德国公司 CEO Marianne Janik 回应称:“GPT-4 不是要取代人类工作,而是要以与以前不同的方式来完成重复性任务。”她建议,公司可以培训员工使用人工智能:“传统的职位描述正在发生变化,由于新可能性不断丰富,令人兴奋的新职业正在出现。”

目前,关于 GPT-4 的更多详细信息还无法得知,让我们一起静待下周它的发布。

参考链接:

https://www.heise.de/news/GPT-4-is-coming-next-week-and-it-will-be-multimodal-says-Microsoft-Germany-7540972.html

https://www.datacamp.com/blog/what-we-know-gpt4

以上是关于GPT-4 即将问世!不仅能搞文字,还支持视频的主要内容,如果未能解决你的问题,请参考以下文章

锋利的javaCV文字识别篇之一:基于tesserac ocr检测识别图片文字,不仅跨平台还支持英文中文简体繁体等各种字符识别

微软:GPT-4下周发布,剑指多模态,可支持视频

GPT4国内镜像站

直面风口,未来不仅是中文版ChatGPT,还有AGI大时代在等着我们

ChatGPT们接踵而至,AI会彻底改变我们的工作方式吗?

GPT-4 还没玩透,GPT-5已遭众人围剿