生成式AI“暴走”,BAT兵戎相见?

Posted liukuang110

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了生成式AI“暴走”,BAT兵戎相见?相关的知识,希望对你有一定的参考价值。

 

配图来自Canva可画

事实证明,互联网大厂不会让自己错过任何一个风口。今年以来,各大互联网巨头借着ChatGPT的高热度,吹响了进攻生成式AI赛道的号角。

百度开启对标ChatGPT的大语言模型“文心一言”产品的邀请测试;腾讯AI Lab推出3D游戏场景自动生成解决方案;阿里宣布将全力投入生成式AI大模型建设并提供算力支撑。其实往深了说,这些大厂们不只是单纯的“追风者”,更是嗅觉灵敏的“逐利者”。

一方面,用户接受度相对更高的生成式AI场景多数为娱乐生活领域,与腾讯们擅长的商业场景契合度比较高,一定程度上可以推动原有业务快速增长。另一方面,生成式AI与云计算关联愈加紧密,或将成为大厂云业务发展的加速器。

山雨欲来风满楼,互联网大厂纷纷躬身入局,伴随着生成式AI在各家战略布局中的权重越来越高,未来生成式AI赛道或是避免不了一场血战。

百度“文心一言”领跑

在今年的AI赛道中,百度可谓大出风头,其发布的“文心一言”在近一个月来备受市场关注。不仅百度给予这款产品极大的重视,部分业界人士也给出高度肯定,称其为“中国版ChatGPT”。

不可否认,从落地和声量来看,百度文心一言无疑是目前国内市面上成熟度和热度双高的生成式AI产品。

第一,生态搭建小有规模,跑马圈地胜算大。众所周知,百度在国内AI领域有较大的话语权,追捧其相关AI 产品的企业不在少数,因此于百度而言,生成式AI生态的构建也是水到渠成之事。

事实也确实如此,百度在“文心一言”发布会就曾披露已经有包括互联网、金融、汽车、医疗、企业软件等相关的650家企业加入其生态。就渗透性而言,文心一言已经先一步形成优势,很大程度上为百度在生成式AI市场中圈地提前打了一个好基础。

第二,生成能力相对齐全,覆盖场景更广。看国内其他企业推出的生成式AI,基本上是附着于主流平台上的一类功能,生成形式也较为单一。比如腾讯QQ中的AI编曲、字节的AI作曲工具“海绵乐队”,网易旗下LOFTER上线的AI作画功能“老福鸽画画机”等等。

比较之下,百度的文心一言不仅有独立的产品形态,且相比于此前的AI作画平台“文心一格”,其能力更加全面丰富,即具备了文学创作、商业文案创作、数理推算、中文理解和多模态生成五大能力,除了能用户对话互动、协助创作之外,还能高效便捷地帮助用户获取信息、知识和灵感。

第三,内部落地场景丰富,有更多的价值释放口。据了解,百度计划将搜索、智能云、Apollo自动驾驶等多项主流业务与文心一言进行整合。这样一来,文心一言的产品价值将会得到更大释放。

一方面,文心一言本身的商业化渠道将被快速打通,变现潜力也将大有提高;另一方面,文心一言与百度其他业务场景融通,将会带动它们的发展往前多走一步,或是技术革新,或是产品迭代,或是商业版图的纵深。

放眼国内其他企业在生成式AI市场的进展,百度确实有足够的先发优势,但是从产品的角度出发,文心一言还未达到百度预想中的高度。正如百度CEO李彦宏在内测之后坦言:文心一言“不完美”。

确实,目前从市场反应和体验层面来说,文心一言所展现出来的能力确实还难与ChatGPT媲美,但从技术驱动和创新层面来说,文心一言对国内人工智能水平升级的带动作用仍值得嘉许。既然百度对目前的差距有着清醒认知,市场也不妨给予文心一言更多耐心以及更多攻克难关的时间。

腾讯BC两端并驱

本质上,生成式AI对生产效率的提升和用户体验的改善有着相当重要的作用。百度的文心一言深谙此道,且已有躬身实践的计划,无独有偶,腾讯也正努力尝试将此付诸行动。

在C端,助力旗下产品提升用户体验。据腾讯官方说法,未来每一位用户都将拥有自己的人工助理,且若是效果好,有可能会将生成式AI纳入微信和QQ。

其实,腾讯有这样的打算并不意外。眼下,将AI能力融入应用中已经成为各家互联网大厂创新产品、提升体验,以求进一步增强用户粘性的惯用手段。比如今日头条、美团,包括腾讯音乐前段时间都跟风在应用内推出的AI绘画功能。

不过对于腾讯来说,旗下王牌应用微信、QQ的巨大流量池已经是傲视行业的存在,此番着重关注生成式AI与通讯业务的融合,或是想通过生成式AI 技术为通讯业务提供更加重要的补充作用,为其流量池加一层保障。

在B端,赋能开发者解决方案,提升开发效率。目前,腾讯正试图在自己擅长的游戏领域验证生成式AI对B端业务的推动作用。

据悉,在2023游戏开发者大会上,腾讯AI Lab发布的3D游戏场景自动生成解决方案,可通过AIGC技术帮助开发者在短时间内打造高拟真、多样化的虚拟城市场景,大幅提升游戏开发效率。

在今年腾讯大力投入AI大模型的战略背景下,或许不止游戏应用,未来腾讯借力小程序或其他应用开发推进B端业务也大有可能。

毕竟腾讯一直都希望能够拉齐B、C两端的营收占比,但就现实来看,B端的收入与腾讯预想还差一段距离。据2022年年报显示,腾讯“金融科技及企业服务”收入占比为32%,而“增值服务”收入占比为52%。腾讯现在急于为B端变现找补,想必其非常乐见生成式AI与B端能产生更多的商业反应。

从总体战略来说,在2023年,腾讯的火力将会集中到“增效”上,生成式AI对业务的加持作用或将被重点审视。

据官方说法,腾讯正大力投入人工智能与云基础设施建设,将AI能力应用到更多的场景中,并且在训练基础模型方面会进行长期投资。也就是说,日后生成式AI在腾讯各项业务中应用的可能性非常多,生成式AI技术或会成为腾讯未来的重要增长动力。

阿里内外两手抓

和百度、腾讯相似的打法,阿里在这场生成式AI的游戏中,既要做“吃水人”,也要做“打井人”。

对内,构建好自己的AI预训练大模型。今年2月份,阿里达摩院向外界确认正在研发类ChatGPT产品,且目前已进入内测阶段。相比于百度的“文心一言”,阿里的确慢了一步,但结合其以往技术实力和数据资源来看,阿里在生成式AI领域或许依旧可期。

一方面,在前几年,阿里就加入了AI大模型的技术竞赛,积累的经验、数据颇为丰富。2020年,启动中文多模态预训练模型M6项目,并推出3亿参数的基础模型;2021年,正式将具有万亿参数规模的模型投入使用。

另一方面,阿里AI在ChatGPT上的技术实力在市场中颇受认可。IDC发布的《2022H1中国AI云服务市场研究报告》显示,阿里在与ChatGPT相关的多个技术赛道中都是名列前茅,其中在自然语言处理、智能语音、对话式AI的市场份额占比均为第一。

对外,为相关生成式AI产品提供算力支撑。算力优势一直是阿里决胜的杀手锏,据公开资料显示,阿里云在张北和乌兰察布分别建设有两座超级智算中心,其规模已超过谷歌和特斯拉,目前国内只有阿里具备支撑超万亿参数大模型研发的实力。

此番生成式AI成势,市场对算力的需求将会迎来新一轮爆发。若是阿里能准确抓住机遇,为市场中的生成式AI玩家做好算力支撑,或将助力其云业务进一步高速发展。

这些年,云业务在阿里的增长中肩负重任,所以在云计算和人工智能技术大融合的背景下,阿里更在乎的还是如何利用云计算的底层技术为新的科技浪潮提供支撑,让阿里云在头排位置上继续前进,以及进一步扩大收益。

生成式AI是块硬骨头

尽管百度、腾讯、阿里正努力在生成式AI领域中补齐功课,但现实挑战诸多,这条路它们可能走得不会太顺遂。

一来,像任何新兴技术一样,生成式AI现在的难关仍然是技术、市场相对不成熟。在C端,生成式AI在聊天机器人、AI绘图等比较火热的场景中,仍旧存在版权限制、产品“鸡肋”等问题;在B端,目前尚未出现主流企业应用生成式AI成功出圈的案例。

无论面向哪一端端,BAT们在很多方面的能力还有待改进,甚至需要继续摸着石头过河,前进的道路仍未可知。

二来,赛道不乏种子选手,市场选择多,份额争夺战或会走向白热化。生成式AI是新的技术范式,大部分企业都不甘心错过。现下,国内网易、字节等大厂在加快布局,国外微软、Adobe等大公司落地进度也在提速。BAT们被前后夹击,在生成式AI赛道中各大厂剑张拔弩,发展环境并不算友好。

三来,国内信任环境并不算友好。OpenAI前脚更新迭代出GPT4.0,百度后脚就上线“不完美”的文心一言,与ChatGPT正面比较相形见绌,难免会引发市场对国内相关产品的诸多质疑,甚至不看好。最直观的反应就是在百度发布文心一言之时,其股价跌幅一度超过10%。

未来摆在BAT面前的问题就是,除了可能面临诸多不确定性之外,其可能还要面对来自四面八方的质疑声,可以预想到它们未来的生成式AI道路难关重重。

就BAT实力和经验而言,它们有更多财力以及更完善的数据、算法等技术可以为生成式AI领域注入发展动力,做出一款类ChatGPT产品并不难,但现在的重点并不是“是否做得出”的问题,而是“能否做得好”的问题。

毕竟不管BAT们愿不愿意,外界都会拿它们的生成式AI产品与ChatGPT相提并论。鉴于此,大厂们还是要尽量减少试错次数,以加强国内市场对ChatGPT的信心。就像腾讯目前对生成式AI的态度:“不求快,而求对”,想必日后BAT们亦是如此,在发展生成式AI更加求稳求好,相信接下来是骡子是马,时间会做出验证。

3D模型的生成式AI

生成式 AI 席卷了 2022 年,我们最近决定 Physna 不应错过这个热点。 因此,尽管生成 AI 并不是我们的商业模式—Physna 是一家 3D 搜索和分析公司,专注于 AR/VR 和制造中的工程和设计应用—我们还是决定为 3D 模型和场景生成 AI 构建一个非常基本的原型,由三名工程师进行为期两周的冲刺。 为什么?

1、生成式AI与3D

随着 Metaverse、增强现实、虚拟现实和混合现实变得更加主流,3D 内容消费将急剧增加。 这增加了对 3D 内容的需求,并为 3D 创作者提供了千载难逢的机会。 生成式AI——如果使用得当和公平——有可能大大提高创作者的生产力。 我们相信,通过克服 3D 数据固有的复杂性问题,我们可以释放 3D 的最大优势:它的数据非常丰富。 这可能意味着可以使用相当少量的 3D 模型来创建或影响全新生成的模型。 换句话说:创作者自己过去的作品可以用于新作品的开发。 这将使 3D 模型和场景不仅对用户更有价值,而且可以克服与使用第三方数据相关的风险。

尽管有机会和巨大的潜力,生成 AI 比其他地方需要更长的时间才能达到 3D:

红杉资本对生成式 AI 应用程序的概览展示了一系列公司生成从创意文本到视频、代码和图像的一切内容。 但作为一家专注于 3D 的科技公司,Physna 引起我们注意的是那个空的粉红色盒子:用于 3D 模型和场景的生成 AI 是唯一留空的盒子。

那么,是什么让生成式 AI 在 3D 中如此困难,而它在其他地方发展得如此之快?

2、3D模型生成式AI的挑战

问题 1:3D 模型……很复杂

一个问题是 3D 本身的复杂性所固有的:模型传统上很难创建,存在各种不兼容的格式中,令人惊讶的是,与 2D(文本、图像、视频、 ETC。)相比,越来越少的公司有能力专注于 3D,因为它在分析层面通常更难突破——更不用说生成 AI 了。

问题 2:缺乏标记的 3D 数据

谷歌的 DreamFusion 团队在他们 9 月份的文章中或许对另一个问题做了最好的总结:3D 数据不如 2D 数据多。 就像 Nvidia 最近宣布的 Magic3D 一样,Google 的 DreamFusion 团队使用了 NeRFs(神经辐射场),最好将其视为介于 2D 和 3D 之间的东西……考虑到这篇博文的“2.5D”。 它们也是空的“壳”,因为它们没有任何内部组件和几何形状。 这意味着拟不仅掌握的关于手头物体的信息更少,而且也更难得出关于是什么造就了它的结论。 因此,尽管在 NeRFs 上进行训练可能比使用 2D 更有益,但正如谷歌的 DreamFusion 团队指出的那样:NeRFs 根本不是真正的、带标签的 3D 模型的很好替代品。 这意味着,如果没有解决方案,在可预见的未来,生成式 AI 将无法在 3D 领域和其他领域发挥作用。

3、如何克服困难

我们意识到可以通过一种非常简单的方式克服 3D 数据稀缺的问题:Physna 拥有世界上最大的标记 3D 数据库,以及使用它的适当许可。 但考虑到生成式 AI 的计算成本,利用它来运行原型将是一种昂贵的方式。 相反,我们意识到更有价值的是简单地确定是否可以用比以前想象的少得多的 3D 数据在生成式 AI 中完成更多工作。

我们的假设很简单:对手头 3D 模型的更深入理解意味着需要更少的模型来实现可扩展且有意义的 3D 生成 AI。 毕竟,虽然 3D 的缺点是数据的复杂性,但优点是与 2D 图像等其他资产相比,这些 3D 模型的数据有多丰富。

这是一个我们认为非常适合解决的问题。 我们的整个业务都建立在我们的核心技术之上,该技术“编码”了 3D 模型——也就是说,它创建了一个数字“DNA”,以标准化的方式代表模型的几何形状、特征和属性。 这样做使我们能够确定所有模型如何相互关联——包括在子模型级别。 这个关系矩阵允许我们使用人工生成的标签以指数方式传播更多的标签(在两到三个数量级之间)。 而且这个标签系统不仅具有可扩展性,而且相当可靠,因为我们在创建过程中使用了两个步骤:

第 1 步:我们使用一组获得专利的确定性算法来创建模型“DNA”的第一层。 这会绘制出模型的每个属性、其确切的几何形状和特征,并对模型进行标准化。 这一步对于确保在精度是关键时不会错误识别看起来模糊的事物至关重要,并且它显示了每个特征或部分应该如何组合在一起。

第 2 步:然后,我们使用一组由深度学习增强的专有非确定性算法,这对于启用模型生成同样重要。 此步骤还确保在概念层面理解不同大小和形状的模型(即没有“匹配”的几何或属性)。

这两层的结合使我们能够深入了解每个模型、它与其他模型的关系、构成模型的特征/组件以及它们存在的其他位置。 这意味着对于训练中使用的每个 3D 模型或场景,我们可以学到更多——并使 3D 模型和场景生成更有效——所有这些都需要更少的数据。

3、3D模型生成式AI测试

在我们生成芝士汉堡和纸杯蛋糕(我们喜欢食物)的 3D 模型的简短“阶段 1”之后,我们进入阶段 2 中更具挑战性的原型:场景生成。 毕竟,一旦可以同时生成模型和整个场景,你距离添加运动并创建你选择的整个“Metaverse”或混合现实世界的能力仅一步之遥(也许非常小)。

我们将我们的项目限制在 Amazon-Berkeley 库中的大约 8,000 个模型。 以任何标准来看,这都没有什么可训练的(二维稳定扩散最初训练了大约 6 亿张图像以进行比较)。 我们相信,通过首先分析上述模型,这个小数据集很有可能足以创建一个非常简单的原型。

我们提到的简单,确实意味着简单。 正如你在下面的视频中注意到的那样,这个原型仅限于家具。 展示的一些例子可能有点傻——比如在外太空沙发周围布置的花瓶——但重点是从中获得乐趣,看看有什么——如果有的话——可以由三名工程师在短短两周内完成,同时接受培训 8,000 个模型。

4、结束语

结果肯定比我们希望的要多。 从这些测试中得出的一个意外收获是,使用上述方法,3D 生成式 AI 中最困难的部分不是生成模型或场景本身,而是在较短的开发时间框架内克服相对简单的错误(如模型碰撞)。 虽然只使用如此小的数据集的决定肯定会限制原型的范围,但结果证明,3D 中的生成式 AI——无论是在对象还是场景级别——都可以利用 3D 模型中存在的庞大数据量。

这对最终用户来说是一个特别有希望的消息:即使是相对较小的数据集也足以极大地影响生成的模型。 这意味着个人和企业可以使用他们自己的模型来生成为他们量身定制的新 3D 资产。 3D 生成 AI 不仅可以作为设计师和创作者的力量倍增器,还可以让你牢记自己的风格和用例。

志愿参与这项工作的三位工程师正在休几天假来恢复体力,由于他们的努力和测试的积极结果,我们正在 Physna 积极扩大对 AI 的关注。

这篇文章的目的有两个:分享我们的发现和它们所带来的机会,并向任何可能有兴趣加入该团队的人工智能研究人员敞开大门。


原文链接:3D模型生成式AI — BimAnt

以上是关于生成式AI“暴走”,BAT兵戎相见?的主要内容,如果未能解决你的问题,请参考以下文章

生成式AI(Generative AI)将重新定义生产力

AI未来十年新范式,生成式人工智能的挑战与机遇

11种主流生成式AI应用2023

科技云报道:AI写小说绘画剪视频,生成式AI更火了!

生成式 AI 下,10~1000 倍速开发人员将成为现实!

通过CSIG—走进合合信息探讨生成式AI及文档图像处理的前景和价值