苹果发布 AI 生成模型 GAUDI,文字生成 3D 场景

Posted AI科技大本营

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了苹果发布 AI 生成模型 GAUDI,文字生成 3D 场景相关的知识,希望对你有一定的参考价值。

整理 | 禾木木

出品 | AI科技大本营(ID:rgznai100)

前有DALL.E文本生成图像,现有将文字变成 3D场景。近日,苹果 AI 团队发布最新 AI 模型 GAUDI,它是基于 3D 场景的神经架构 NeRFs,可以根据文字生成 3D 室内场景。

目前为止,NeRFs 主要用做 3D 模型和 3D 场景的一种神经存储介质,然后可以从不同的相机视角进行渲染。

最新 AI 系统 GAUDI

如果说 NeRFs 从不同角度逼真地渲染图像的能力可以用于生成 AI 呢?

此前,OpenAI 的 DALL-E 2 或 Google 的 Imagen 和 Parti 等 AI 系统展示了 AI 将文本生成图像的潜力,但内容也仅限于 2D 图像和图形。

2021 年末时,谷歌通过 Dream Fields 首次展示了 3D AI 生成系统,将 NeRF 生成 3D 视图的能力与 OpenAI 的 CLIP 评估图像内容的能力相结合。苹果 AI 团队发布的 GAUDI 是一种能够生成沉浸式 3D 场景的神经架构,可以根据文字提示创建 3D 场景。

例如,输入“穿过走廊”或“上楼梯”,就可以看到执行这一动作的 3D 场景视频。

Apple GAUDI 是 3D 内饰专家

虽然谷歌致力于使用 Dream Fields 生成单个对象,但将生成 AI 扩展到完全不受约束的 3D 场景仍是一个尚未解决的问题。这背后极有可能的原因之一是摄像机位置的限制。

虽然对于单个对象,每个摄像机位置都可以映射到一个圆顶,但在 3D 场景中,这些摄像机位置会受到对象和墙壁等障碍物的限制。

对于这个问题,GAUDI 模型的解决方案是:相机姿态解码器对可能的相机位置进行预测,并确保输出是 3D 场景架构的有效位置。

场景的场景解码器预测三平面表示,这是一种 3D 画布,辐射场解码器在其上使用体积渲染方程绘制后续图像。

在对四个不同数据集(包括室内扫描数据集 ARKitScences)的实验中,研究人员表明 GAUDI 可以重建学习视图并匹配现有方法的质量。

虽然现在 GAUDI 生成的 3D 场景视频质量还不是很高,但这也说明了 AI 在图像和视频技术这生成的另一种可能。

参考链接:

https://mixed-news.com/en/apples-new-gaudi-ai-turns-text-prompts-into-3d-scenes/


 

往期回顾

“如今,99%以上的代码都是垃圾!”

Deepfake 技术换脸真假难辨!

当你不再是程序员,很多事会脱离掌控

7岁男童因下棋太快,被机器人夹断手指?

分享
点收藏
点点赞
点在看

以上是关于苹果发布 AI 生成模型 GAUDI,文字生成 3D 场景的主要内容,如果未能解决你的问题,请参考以下文章

训练大模型的九大深度学习库;谷歌转向文字→视频生成的两大利器|AI系统前沿动态...

新视觉合成模型 Nüwa(女娲),文字生成图像视频,8类任务一个模型搞定

新视觉合成模型 Nüwa(女娲),文字生成图像视频,8类任务一个模型搞定

字节最新文本生成图像AI,训练集里居然没有一张带文字描述的图片?!

3分钟看完一篇论文,这个AI文本生成模型把今年NeurIPS 2300+篇总结了个遍

文本生成视频Make-A-Video,根据一句话就能一键生成视频 Meta新AI模型