MIT开源最强虚拟人生成器
Posted vivisl
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了MIT开源最强虚拟人生成器相关的知识,希望对你有一定的参考价值。
MIT虚拟人AI-generated Characters
一、项目简介
麻省理工学院媒体实验室(MIT Media Lab)的研究人员开源了一个虚拟角色生成工具。该工具结合了面部、手势、语音和动作领域的人工智能模型,可用于创建各种音频和视频输出,一举登上《Nature Machine Intelligence》。
该项目主要用于音频或视频驱动视频,暂不支持文本驱动视频。主要用于医疗视频或其他视频通话时保护个人隐私视频驱动视频,使著名的历史或现代人栩栩如生。
项目地址:https://github.com/mitmedialab/AI-generated-characters
二、原理简介
- Character :可选择给定模板人物,也可自定义上传人物照片(单张图片)。
- Inputs:可录音,上传音频,以及上传视频。
首先使用 first-order-model 生成动态视频,然后通过 Wav2Lip 生成嘴型。
- 若 Inputs 为音频,则调用案例视频驱动 Character 生成相应的动态视频,然后使用 inference.py 生成嘴型。
- 若 Inputs 为视频,则使用该视频作为驱动生成动态视频,取出视频音轨再合并音视频。
三、代码实现
1. 数据准备
下载 first-order-model & Wav2Lip 以及人物图片。
2. 函数定义
- 定义一些通用函数,比如选择/上传人物照片,记录/上传音频,上传视频,以及定义相关功能函数等。
- 函数 animate_video 定义了,从 first-order-model 项目的 demo.py 文件里导入功能
make_animation,将人物照片和驱动视频缩放至256x256,最后保存动态视频
/content/vidvid.mp4(256x256,30fps)
def animate_video(img_filename, vid_filename):
from demo import make_animation
from demo import load_checkpoints
# Resize image and video to 256x256
source_image=resize(source_image, (256, 256))[..., :3]
driving_video=[resize(frame, (256, 256))[..., :3] for frame in driving_video]
# Make Animation
predictions=make_animation(source_image, driving_video, generator, kp_detector, relative=True,adapt_movement_scale=False)
#save resulting video
imageio.mimsave('/content/vidvid.mp4', [img_as_ubyte(frame) for frame in predictions], fps=30)
3. 人物选择/上传
- 选择模板人物或者自定义上传人物照片(单张图片)。
- 模板人物:[“Van Gogh”, “Mona Lisa”, “Einstein”, “Lincoln”, “Nietzsche”, “Sokrates”]。
- 自定义上传的人物图片必须宽高相等。
4. 输入驱动选择/上传
有三种方式输入驱动,分别是录音,上传音频,和上传视频。
5. 视频生成
首先使用 animate_video 生成动态视频。
- 若前一步骤为音频输入,animate_video 所用的表情驱动为默认案例视频;
- 若前一步骤为视频输入,animate_video 所用的表情驱动则为该视频。
video_driver = "/content/driving_video.mp4"
然后通过 Wav2Lip 生成嘴型。
- 若前一步骤为音频输入,则用 inference.py 生成嘴型。
- 若前一步骤为视频输入,则先取出视频音轨再合并音视频。
参考资料
https://news.mit.edu/2021/ai-generated-characters-for-good-1216
https://www.nature.com/articles/s42256-021-00417-9
https://www.media.mit.edu/articles/characters-for-good-created-by-artificial-intelligence/
MIT开源最强虚拟人生成器,登Nature子刊
来源:新智元
麻省理工学院媒体实验室(MIT Media Lab)的研究人员开源了一个虚拟角色生成工具。该工具结合了面部、手势、语音和动作领域的人工智能模型,可用于创建各种音频和视频输出,一举登上《Nature Machine Intelligence》。
这年头,用人工智能创建一个数字虚拟人感觉越来越容易了。
不过,关于数字人,不少言论都集中在「它有误导性」和「它背后的deepfake技术有潜在的隐私泄露风险」这两个观点上。
其实,这项技术也可以用于积极的目的,比如,让阿尔伯特·爱因斯坦复活,去教一堂物理课,或者与年长的自己聊一聊天。
为了鼓励这项技术所能带来的积极作用,麻省理工学院媒体实验室(MIT Media Lab)的研究人员开源了一个易于使用的虚拟角色生成管道。
该虚拟角色生成管道结合了面部、手势、语音和动作领域的人工智能模型,可用于创建各种音频和视频输出。
使用人工智能技术制作的蒙娜丽莎、玛丽·雪莱、马丁·路德·金、阿尔伯特·爱因斯坦、文森特·梵高和威廉·莎士比亚的动画
该虚拟角色生成管道还使用了可追踪的、人类可读的水印标记了其输出的结果。
这样一来,它生成的内容就可以与真实的视频内容区分开来,进而防止一些恶意的用途。
研究人员希望教师、学生和医疗保健工作者可以尝试一下,看看这个工具能否在各自的领域帮助到他们。
研究人员在《Nature Machine Intelligence》上写道,如果有更多的学生、教育工作者、卫生保健工作者和治疗师有机会构建和使用这些虚拟角色,那么,这些虚拟角色可能会为更多人带来福祉。
论文地址:https://www.nature.com/articles/s42256-021-00417-9
斯坦福虚拟人类互动实验室的创始主任杰里米·巴伦森(Jeremy Bailenson)表示:
「当人工智能和人类开始共享身份时,这将是一个奇妙的世界。这篇论文完成了令人难以置信的工作,描绘了在教育、健康、亲密关系等领域,AI生成角色的可能用途,同时给出了一个切实可行的路线图,说明了如何避免隐私泄露和虚假视频。」
该论文的第一作者Pat Pataranutaporn是Pattie Maes流体界面研究小组的博士生。
他说,「尽管世界上大多数人都是从deepfakes那里了解虚拟人技术的,但我们认为它有潜力成为创造性表达的工具。」
数字人的有趣妙用
生成性对抗网络(GAN),是两个相互竞争的神经网络的组合,使得创建极具真实感的图像、克隆声音和生成人脸动画变得更加容易。
Pataranutaporn与Danry一起,在一个名为Machinoia的项目中首次探索了生成人脸动画的可能性。
统一管道允许用户提供视频、语音或文本作为输入,以生成视频和实时面部滤镜
在这个项目中,Pataranutaporn创造了各个年龄段的自己:少年、青年、中年、老年,让他们从不同的角度和自己进行对话。
Pataranutaporn说:「这次不寻常的经历让我意识到自己作为一个人的旅程。这是一次非常新奇的体验——用你自己的数据来揭示你自己以前从未想过的东西。」
研究人员说,自我探索只是AI虚拟角色的积极应用之一。
实验表明,虚拟人可以使学生对学习更有热情,并提高认知任务的表现,并作为传统教学的补充。
Pataranutaporn解释说,这项技术为教学提供了一种「根据兴趣和个人背景进行个性化定制,并且可以随着时间的推移而改变」的方式。
Machinoia技术还可以用于在视频会议中隐藏自己的脸,但是还能保留面部表情和情绪。
如果人们要在会议上共享个人敏感信息(如健康和创伤经历),那这项技术会很有用。
在实时会议环境中使用人工智能生成的角色
Machinoia项目还有更多好玩的用例。
在今年秋天,由Maes和研究机构Roy Shilkrot共同教授的Deepfakes实验课上,学生们用这项技术将一幅描绘清明历史场景的中国画中的人物制作成了动画。
有的同学还用Deepfakes创建了一个「分手模拟器」。
法律和道德挑战
研究人员在论文中指出,随着技术的发展,虚拟人技术的蓬勃兴起也带来了不少法律和伦理问题。
例如,如何决定谁有权以虚拟数字化的形式重现一个历史人物?名人的AI克隆人在网上推广有害行为,谁承担法律责任?与人类相比,人们更喜欢与虚拟人互动,这有什么危险吗?
「我们这项研究的目标之一是提出问题,并就如何使用这项技术来造福社会展开公开讨论」,Maes说。
「通过分享AI虚拟人这项技术,同时明确标注由它生成的视频是合成的」,Pataranutaporn说,「就可以激发更多有创造性和积极的用例,这样才能让人们了解到这项技术的潜在好处」。
参考资料:
https://news.mit.edu/2021/ai-generated-characters-for-good-1216
https://www.nature.com/articles/s42256-021-00417-9
觉得还不错就给我一个小小的鼓励吧!
以上是关于MIT开源最强虚拟人生成器的主要内容,如果未能解决你的问题,请参考以下文章
支付宝即时到账在线语音音效生成器html源码(地球最强装13)
支付宝即时到账在线语音音效生成器html源码(地球最强装13)