展现完美的自己 英伟达AI算法提升视频会议体验

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了展现完美的自己 英伟达AI算法提升视频会议体验相关的知识,希望对你有一定的参考价值。

参考技术A

受新冠疫情的影响,加速了各行业企业移动化办公的需求,这期间,有大量的用户和企业选择了线上视频会议。那么,我们如何在视频会议中展现更完美的自己呢?

  近日,2021年国际计算机视觉与模式识别会议(CVPR 2021)正式召开。基于GAN研究的NVIDIA Maxine云AI视频流SDK现已在CVPR 2021上展出。让我们看一看GAN研究是如何重塑视频会议的呢?

  起床、启动笔记本电脑、打开网络摄像头——得益于NVIDIA研究人员开发的AI技术,每次都能在视频通话中展现完美的自己。

  Vid2Vid Cameo是用于视频会议的NVIDIA Maxine SDK背后的深度学习模型之一,它借助生成式对抗网络(GAN),仅用一张人物2D图像即可合成逼真的人脸说话视频。

  要使用该模型,参与者需要在加入视频通话之前提交一张参照图像(真实照片或卡通头像)。在会议期间,AI模型将捕捉每个人的实时动作,并将其应用于之前上传的静态图像。

  也就是说,上传一张穿着正装的照片之后,与会人员即使头发凌乱、穿着睡衣,也能在通话中以穿着得体工作服装的形象出现,因为AI可以将用户的面部动作映射到参照照片上。如果主体向左转,则技术可以调整视角,以便参与者看上去是直接面对摄像头的。

  除了可以帮助与会者展现出色状态外,这项AI技术还可将视频会议所需的带宽降低10倍,从而避免抖动和延迟。它很快将在NVIDIA Video Codec SDK中作为AI Face Codec推出。

  NVIDIA研究人员兼项目的联合创作者Ming-Yu Liu表示:“许多人的互联网带宽有限,但仍然希望与朋友和家人进行流畅的视频通话。这项基础技术除了可以为他们提供帮助外,还可用于协助动画师、照片编辑师和 游戏 开发者的工作。”

  Vid2Vid Cameo本周发表于著名的国际计算机视觉与模式识别会议,这是NVIDIA在本次虚拟会议上发表的28篇论文之一。此外,它还在AI Playground上推出,在此所有人均可亲身体验我们的研究演示。

   AI大出风头

  在一部经典盗贼电影(同时也是Netflix的热门节目)的致谢中,NVIDIA研究人员将他们的人脸说话GAN模型迅速用于虚拟会议。演示重点介绍Vid2Vid Cameo的主要功能,包括面部重定向、动画头像和数据压缩。

  这些功能即将登陆NVIDIA Maxine SDK,为开发者提供经过优化的预训练模型,以便在视频会议和直播中实现视频、音频和增强现实效果。

  开发者已经能采用Maxine AI效果,包括智能除噪、视频升采样和人体姿态估计。SDK支持免费下载,还可与NVIDIA Jarvis平台搭配用于对话式AI应用,包括转录和翻译。

   来自AI的问候

  Vid2Vid Cameo只需两个元素,即可为视频会议打造逼真的AI人脸说话动态,这两个元素分别是一张人物外貌照片和一段视频流,它们决定了如何对图像进行动画处理。

  模型基于NVIDIA DGX系统开发,使用包含18万个高质量人脸说话视频的数据集进行训练。网络已掌握识别20个关键点,这些关键点可用于在没有人工标注的情况下对面部动作进行建模。这些点对特征(包括眼睛、嘴和鼻子)的位置进行编码。

  然后,它会从通话主导者的参照图像中提取这些关键点,这些关键点可以提前发送给其他的视频会议参与者,也可以重新用于之前的会议。这样一来,视频会议平台只需发送演讲者面部关键点的移动情况数据,无需将某参与者的大量直播视频流推送给其他人。

  对于接收者一端,GAN模型会使用此信息,模拟参照图像的外观以合成一个视频。

  通过仅来回压缩及发送头部位置和关键点,而不是完整的视频流,此技术将视频会议所需的带宽降低10倍,从而提供更流畅的用户体验。该模型可以进行调整,传输不同数量的关键点,以实现在不影响视觉质量的条件下,适应不同的带宽环境。

  此外,还可以自由调整所生成的人脸说话视频的视角,可以从侧边轮廓或笔直角度,也可以从较低或较高的摄像头角度来显示用户。处理静态图像的照片编辑者也可以使用此功能。

  NVIDIA研究人员发现,无论是参照图像和视频来自同一个人,还是AI负责将某个人的动作转移到另一个人的参照图像,Vid2Vid Cameo均能生成更逼真、更清晰的结果,优于先进的模型。

  后一项功能可将演讲者的面部动作,应用于视频会议中的数字头像动画,甚至可以应用于制作视频 游戏 或卡通角色的逼真形象和动作。

  Vid2Vid Cameo论文由NVIDIA研究人员Ting-Chun Wang、Arun Mallya和Ming-Yu Liu共同撰写。NVIDIA研究团队在全球拥有超过200名科学家,专注于AI、计算机视觉、自动驾驶 汽车 、机器人和图形等领域。

  我们要感谢演员Edan Moses ,他在Netflix上的《纸钞屋》中担任教授的英语配音,感谢他在以上我们最新AI研究的介绍视频中做出的贡献。

  写在最后,视频会议现已经成为人们日常生活的一部分,能够帮助数百万人工作、学习、 娱乐 ,甚至就医。NVIDIA Maxine集成了先进的视频、音频和对话式AI功能,给那些帮助我们保持联络的视频会议平台带来效率突破。(陶然)

如何快速成为图像识别大神?英伟达专家带你低门槛高效实现AI模型训练与部署 | 英伟达CV公开课

位来 发自 凹非寺
量子位 编辑 | 公众号 QbitAI

图像识别技术是人工智能研究的一个重要分支,也是人们日常生活、工作中应用最广泛的AI技术之一。如车辆识别、人脸识别、体态识别等技术,广泛应用于智慧城市、交通、零售、文娱等领域。

图像识别也是机器人、无人驾驶等技术的重要基础,未来将具有更加广泛的应用领域。

但对于大部分AI开发者来说,图像识别从算法研究、模型训练到规模化的提供服务,所需卷入的资源和处理的流程非常之多。并且如何保证数据质量、提高推理速度、提升识别精度等都面临很多挑战。

那么,开发者如何才能减少模型训练、调优所需时间?如何降低数据收集、标注成本?如何便捷、大规模部署AI模型?

迁移学习便是一种重要方式。

英伟达迁移学习工具包—TLT3.0提供了AI/DL框架的现成接口,使开发者能够更快地构建模型,而不需要编码;可以降低大规模数据收集、标记的相关成本,并降低训练模型的消耗。NVIDIA开源软件Triton Inference Server能够简化AI模型在生产中的大规模部署,开发者可以利用任何框架(TensorFlow, TensorRT, PyTorch, ONNX,或自定义框架) 部署训练好的AI模型。

为了让更多AI开发者快速上手TLT工具包,量子位联合NVIDIA发起3期线上CV公开课,从理论到实践,通过实例展示搭建和部署车辆信息识别系统、(面部)情感识别系统、手势识别系统,带大家低门槛、快速学习AI模型的训练、加速与应用部署。

文末附报名方式,欢迎人工智能从业者、有AI开发需求的小伙伴报名参与。

课程亮点

降低门槛,初级开发者也能快速上手

整合资源,降低数据收集、标注成本,简化部署流程

快速搭建,提供AI/DL框架的现成接口,无需编码

课程介绍

第1期:快速搭建基于Python的车辆信息识别系统

利用最新的NVIDIA Transfer Learning Toolkit 3.0 和 Deepstream 快速搭建车辆信息识别系统。

时间:5月19日(周三),20:00-21:30

内容大纲:

  • 介绍Transfer Learning Toolkit 3.0的最新特性

  • 利用Transfer Learning Toolkit 丰富的预训练模型库,快速训练属于自己的模型

  • 直接利用Transfer Learning Toolkit 的预训练模型和Deepstream部署您自己的应用

第2期:快速搭建情感识别系统

利用最新的NVIDIA Transfer Learning Toolkit 3.0和Triton搭建情感识别系统。

时间:6月2日(周三),20:00-21:30

内容大纲:

  • NVIDIA Transfer Learning Toolkit 3.0 的最新特性

  • NVIDIA Triton的最新特性

  • 利用NGC快速搭建最新NVIDIA Transfer Learning Toolkit Inference Pipeline

  • 利用Transfer Learning Toolkit 丰富的预训练模型库,快速训练属于自己的模型

  • 利用Triton部署情感识别系统

第3期:快速搭建手势识别系统

利用最新的NVIDIA Transfer Learning Toolkit 3.0和Triton搭建手势识别系统。

时间:6月17日(周四),20:00-21:30

内容大纲:

  • NVIDIA Transfer Learning Toolkit 3.0 的最新特性

  • NVIDIA Triton的最新特性

  • 利用Transfer Learning Toolkit 丰富的预训练模型库,快速训练属于自己的模型

  • 利用Triton部署手势识别系统

主讲嘉宾

如何快速成为图像识别大神?英伟达专家带你低门槛、高效实现AI模型训练与部署 | 英伟达CV公开课

何琨(KEN HE),英伟达NVIDIA开发者社区经理,拥有多年的GPU开发经验和人工智能开发经验。在人工智能、计算机视觉、高性能计算领域曾经独立完成过多个项目,并且在机器人和无人机领域,有丰富的研发经验。曾针对图像识别,目标的检测与跟踪等方面完成多种解决方案,作为主要研发者参与GPU版气象模式GRAPES。

免费报名

本次CV公开课主要针对有AI开发需求的开发者,无论是0基础的新手,还是想快速训练部署AI模型的从业者,都会在本次课程中收获满满~

识别下图二维码或点击“阅读原文”即可报名,请先选择您要报名第几期课程哦~

扫码 或点击“阅读原文”免费报名吧~

完 —

量子位 QbitAI · 头条号签约作者

վ'ᴗ' ի 追踪AI技术和产品新动态

喜欢就点「在看」吧 !


以上是关于展现完美的自己 英伟达AI算法提升视频会议体验的主要内容,如果未能解决你的问题,请参考以下文章

AI一周热闻:微软收购GitHub;谷歌放弃续签Maven计划;英伟达发布首款机器人AI芯片Jetson Xavier

英伟达新研究:不用动捕,直接通过视频就能捕获3D人体动作|ICCV 2021

英伟达把P图软件GAN了

通过 TensorFlow 实现 AI 语音降噪提升 QQ 音视频通话质量

2D 照片变身 3D 模型,来看英伟达的 AI 新“魔法”!

科技云报道:实现元宇宙,英伟达从打造基础建设平台开始