真的假的?NVIDIA研究在人工智能帮助下瞬间将2D照片转化为3D场景
Posted HelloCVCG
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了真的假的?NVIDIA研究在人工智能帮助下瞬间将2D照片转化为3D场景相关的知识,希望对你有一定的参考价值。
(说明:如果您认为下面的文章对您有帮助,请您花费一秒时间点击一下最底部的广告以此来激励本人创作,谢谢!!!)
Instant NeRF是一种神经渲染模型,可以在几秒钟内学习高分辨率3D场景,并可以在几毫秒内渲染该场景的图像。
75年前,第一张即时照片是用宝丽来相机拍摄的,在真实的2D图像中快速捕捉3D世界是开创性的。如今,人工智能研究人员正致力于相反的工作:在几秒钟内将一组静止图像转化为数字3D场景。
该过程称为逆渲染,使用人工智能来近似光在现实世界中的行为,使研究人员能够从不同角度拍摄的少量2D图像重建3D场景。NVIDIA研究团队开发了一种几乎可以立即完成这项任务的方法,使其成为将超快神经网络训练和快速渲染相结合的首批模型之一。
NVIDIA将这种方法应用于一种流行的新技术,称为神经辐射场(NeRF)。其结果被称为瞬时NeRF,是迄今为止最快的NeRF技术,在某些情况下实现了1000倍以上的加速。该模型只需要几秒钟就可以训练几十张静态照片,再加上它们拍摄的相机角度数据,然后可以在几十毫秒内渲染生成的3D场景。
NVIDIA负责图形研究的副总裁大卫·卢布克(David Luebke)说:“如果多边形网格等传统3D表示类似于矢量图像,那么NERF就类似于位图图像:它们密集地捕捉物体或场景中光线的辐射方式。”。“从这个意义上讲,即时NeRF对3D的重要性可能与数码相机和JPEG压缩对2D摄影的重要性一样-大大提高了3D捕捉和共享的速度、便捷性和范围。”
本周在NVIDIA GTC的一次会议上展示了Instant NeRF,它可以用于为虚拟世界创建化身或场景,以3D形式捕捉视频会议参与者及其环境,或者为3D数字地图重建场景。
为了纪念宝丽来图像的早期,NVIDIA Research重新创建了一张安迪·沃霍尔拍摄即时照片的标志性照片,使用即时NeRF将其转换为3D场景。
什么是NeRF?
NeRF使用神经网络来表示和渲染基于2D图像输入集合的真实3D场景。
收集数据来满足一个NeRF的要求有点像一个红地毯摄影师试图从各个角度捕捉一位名人的服装-神经网络需要从场景周围的多个位置拍摄几十张图像,以及每一张照片的相机位置。
在包含人物或其他移动元素的场景中,捕捉这些镜头越快越好。如果在2D图像捕获过程中有太多的运动,AI生成的3D场景将变得模糊。
从那里,NeRF基本上填补了空白,训练了一个小型神经网络,通过预测从3D空间的任何点向任何方向辐射的光的颜色来重建场景。该技术甚至可以解决遮挡问题——当某些图像中看到的物体被其他图像中的柱子等障碍物遮挡时。
Instant NeRF加速1000倍
虽然基于局部视图估计物体的深度和外观是人类的一项自然技能,但对人工智能来说却是一项艰巨的任务。
根据可视化的复杂性和分辨率,使用传统方法创建3D场景需要数小时或更长时间。将人工智能引入图片中可以加快速度。早期的NeRF模型在几分钟内渲染出没有伪影的清晰场景,但仍然需要数小时的训练。
然而,即时NeRF将渲染时间缩短了几个数量级。它依赖于NVIDIA开发的一种称为多分辨率哈希网格编码的技术,该技术经过优化,可在NVIDIA GPU上高效运行。通过使用一种新的输入编码方法,研究人员可以使用运行迅速的微型神经网络获得高质量的结果。
该模型是使用NVIDIA CUDA工具包和微型CUDA神经网络库开发的。由于它是一个轻量级的神经网络,可以在单个NVIDIA GPU上训练和运行-在具有NVIDIA Tensor核的卡上运行速度最快。
这项技术可以用来训练机器人和自动驾驶汽车,通过捕捉真实世界物体的二维图像或视频片段来了解它们的大小和形状。它还可以用于建筑和娱乐,以快速生成真实环境的数字表示,创作者可以修改和构建。
除了NeRFs,NVIDIA的研究人员正在探索如何使用这种输入编码技术来加速多种人工智能挑战,包括强化学习、语言翻译和通用深度学习算法。
更多内容请关注公众号:元宇宙MetaAI
英伟达Blog:https://blogs.nvidia.com/blog/2022/03/25/instant-nerf-research-3d-ai/
以上是关于真的假的?NVIDIA研究在人工智能帮助下瞬间将2D照片转化为3D场景的主要内容,如果未能解决你的问题,请参考以下文章
清华大学美女学霸“华智冰”是假的?--人工智能(AI)的前世今生
Q新闻丨Android Studio 3.0发布,支持 Kotlin;微软开源深度学习库MMLSpark;敏捷开发?真的假的?