人工智能生成的合成媒体，DeepFake 了解一下

Posted 2023-05-13

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了人工智能生成的合成媒体，DeepFake 了解一下相关的知识，希望对你有一定的参考价值。

参考技术A ITDaily & AI 中国

每日最新 IT 圈 AI 圈新鲜事吐槽给你想看的

想象一下，在选举前几天，一个候选人的视频被发布，显示他们使用仇恨言论，种族污蔑，以及削弱他们作为亲少数族裔的形象。想象一下，一个十几岁的孩子看着一段令人尴尬的露骨视频在社交媒体上传播。想象一下，一个CEO在筹集资金的路上，当一段陈述她对产品的恐惧和焦虑的音频片段被发送给投资人时，毁掉了她成功的机会。

以上所有的场景都是假的、编造的，并不是真实的，但可以通过人工智能生成的合成媒体，也就是所谓的DeepFake[1]，使之成为现实。同样的技术，可以让一位因卢伽雷氏病而失声的母亲用合成语音与家人对话，也可以用来生成政治候选人的假演讲，以损害其名誉。同样的技术，可以让老师使用合成视频与学生进行有效的互动，也可以用来制作一个青少年的假视频来损害其声誉。

人工智能(AI)和云计算技术、GPU虚拟机和平台服务的进步，使得音频、视频和图像处理技术的复杂性得到了快速发展。商品化云计算的接入、公共研究的人工智能算法，以及丰富的数据和多样化海量媒体的可用性，为合成媒体的创作民主化创造了一场完美的风暴。这种人工智能生成的合成媒体被称为深层假造。通过社交平台，合成媒体的传播实现了规模化的民主化。

GAN技术的创新和研究，加上计算的日益普及，使得合成数据的质量以惊人的速度提高。新的工具，其中许多是公开的，可以以越来越可信的方式操纵媒体，例如创建一个公众人物的声音副本或将一个人的脸叠加到另一个人的身体上。GAN和deepfakes已经从研究和学术课题发展到企业创新、娱乐和参与社会活动的实际应用。

Cheapfake是通过简单的常规编辑技术，如加速、减速、剪切等，以及非技术性的操作，如重新编排或重构现有媒体。廉价伪造的一个例子是 "醉酒的佩洛西 "视频[2]。最近，我们看到一些政治广告中使用了重新着色和修饰的手法，这也是一种廉价的假货[3]。

Deepfakes已经成为换脸和对口型的代名词。还有很多其他类型的基于人工智能的音频、视频和图像的操作都可以被称为Deepfakes。

换脸是指一个人的脸被另一个人的脸或另一张脸的关键特征所取代或重构。脸部交换或用滤镜进行操作，几乎是所有社交媒体、视频聊天应用的常见功能。从2014年开始，社交媒体应用Snapchat就有了增强人脸的滤镜。利用人脸检测镜头技术，你可以让自己变老，添加美颜滤镜，或者给自己装上猫耳朵和胡须。这些应用和技术的输出将被定性为AI-Generated合成媒体或deepfakes。大量的免费和付费应用和在线工具让两个人的换脸变得超级简单。开发者可以使用GitHub上的Faceswap和DeepFaceLab的开源代码来创建非常复杂的deepfakes，并在定制代码和训练AI模型方面做出一些努力。

操控术是用人工智能渲染操纵的全身动作和行为。它是一种在视频中创建目标脸部和身体的3D模型来作为木偶人的行为和说的技术。它也被称为全身深度假动作。2018年8月，加州大学伯克利分校发表了一篇名为《Everybody Dance Now》的论文[4]。这是研究人工智能如何将专业舞者的动作转移到业余爱好者的身上。日本人工智能公司Data Grid创造了一个AI引擎，可以自动生成广告和时尚的虚拟模型。

唇语同步是一种渲染嘴部动作和面部表情的技术，让目标人物用声音和正确的语气和音调说事情。AI算法可以将一个人说话的现有视频，改变视频中的唇部动作，以匹配新的音频。这些音频可能是断章取义的旧讲话，也可能是模仿者说话或合成的讲话。演员和导演乔丹-皮尔就用这种技术制作了奥巴马的病毒视频。

Voice Coning是一种深度学习的算法，它可以接收个人的语音记录，生成与原声过分相似的合成语音。它是一种创建个人的自定义语音字库，然后用字库来生成语音的技术。开发合成语音的应用和云服务有很多，微软定制语音、Lyrebird AI、iSpeech和VOCALiD，个人和企业都可以使用这样的技术来提高自己的机构。

图像生成或图像合成是一种利用计算机视觉技术、深度学习和生成式对抗网络（GANs）来合成新图像的技术。它可以生成计算机生成的人或任何非真实物体的图像。英伟达的一个团队用从Flickr上提取的人脸图片训练了一台计算机，创建了网站ThisPersonDoesnotExist.com。在网站ThisXDoesnotExist.com上还有其他例子。

文本生成是利用人工智能技术进行文本和深度学习，自动生成文本，写故事、散文和诗歌，创建长文档的摘要，以及综合的方法。使用RNN（循环神经网络）和现在的GANs，文本生成有很多实际的使用案例。文本生成可以帮助行业中新的自动化新闻或机器人新闻工作。OpenAI的GPT-3可以生成任何文本，包括吉他标签或计算机代码。

技术能够增强人们的能力，是一个很好的推动力。技术可以让人们有话语权，有目标，有能力大规模、快速地产生影响。由于数据科学和人工智能的进步，出现了新的赋能理念和能力。人工智能合成媒体有很多积极的应用案例。技术可以为所有人创造可能性和机会，不管他们是谁，也不管他们如何听、如何说、如何沟通。深假技术的进步在某些领域有明显的好处，比如无障碍、教育、电影制作、刑事取证和艺术表达。[我将在以后的文章中探讨积极的使用案例]。

与任何新技术一样，邪恶的行为者会利用这种创新并为他们的利益服务。GAN和Deepfakes已经不仅仅是研究课题或工程玩具。从一个创新的研究概念开始，现在它们可以作为一种通信武器使用。Deepfakes正变得容易创造，甚至更容易在政策和立法真空中传播。

Deepfakes使编造媒体--换脸、对口型和木偶人--成为可能，大多数情况下，无需同意，并给心理安全、政治稳定和商业干扰带来威胁。深度造假可以用来损害名誉、捏造证据、欺骗公众、破坏对民主体制的信任。近两年，利用生成式人工智能模型创建的合成数据被恶意使用的可能性开始引起人们的警惕。该技术现在已经发展到可能被武器化，对个人、社会、机构和民主制度进行破坏和伤害。Deepfakes可以促进事实相对主义，并使专制领导人得以发展。Deepfakes不仅会造成伤害，还将进一步侵蚀人们对媒体已经下降的信任。它还可以帮助公众人物将自己的不道德行为隐藏在Deepfakes和假新闻的面纱中，将他们的实际危害行为称为虚假行为，也就是所谓的骗子红利。

非国家行为者，如叛乱组织和恐怖组织，可以利用Deepfakes来代表他们的对手发表煽动性言论或从事挑衅性行动，以煽动人们的反国家情绪。例如，一个恐怖组织可以很容易地制作一个假视频，显示士兵对宗教场所的不敬，以点燃现有的反国家情绪，造成进一步的不和谐。国家可以使用类似的策略来传播针对少数族裔社区或另一个国家的计算宣传，例如，一个假视频显示一个警察高喊反宗教的污言秽语，或者一个政治活动家呼吁暴力。所有这些都可以用较少的资源、互联网规模和速度来实现，甚至可以通过微目标来激发支持。

[我将在今后的文章中探讨深层伪装的负面使用案例和危害]

为了捍卫真相和保障言论自由，我们需要采取多利益攸关方和多模式的方法。任何减轻恶意深层造假的社会负面影响的对策，其主要目标必须是双重的。其一，减少恶意深层造假的风险，其二，将其可能造成的损失降到最低。

恶意深造的有效对策可分为立法行动与法规、平台政策与治理、技术干预和媒介素养四大类。

笔者将在以后的文章中探讨有效的对策。

GAN人脸生成技术

朋友们，如需转载请标明出处：https://blog.csdn.net/jiangjunshow

GAN目前有非常多在人脸生成方向上的应用。比如2018年年初社交媒体Reddit与Twitter的项目DeepFake，它的核心功能非常简单，就是将视频或图片中的人脸进行互换。这个功能对于那些制图高手来说似乎并不困难，但是DeepFake完全是基于计算机自身的能力进行处理完成的，并且最终实现的效果非常棒，有时让人几乎看不出修改的样子。下图是两位名人在DeepFake中的人脸互换例子。
在这里插入图片描述

最初版本的DeepFake使用的是自动编码器的技术，后来网络上有了基于GAN的改进版本faceswap-GAN，下面简单介绍一下它的整体运行思路。下图是faceswap-GAN训练阶段与测试阶段的示意图，训练过程中需要大量的人脸A数据，通过算法将其进行扭曲处理变得与人脸A不同，再通过自动编码器生成遮罩于重建的人脸，最终通过遮罩信息与之前输入的信息还原人脸A的数据。在测试过程中，网络会将人脸B的信息认为是训练集中扭曲过的训练集人脸，经过同样的步骤将其还原为人脸A的状态。
在这里插入图片描述

下图是上述faceswap-GAN的目标函数，由三个损失函数组成。第一项为重建损失，确保重建后的人脸与原始人脸相似。第二项为GAN中的对抗损失，需要计算机判断输出的人脸是真实的还是生成的。最后一项为可选项，是人脸数据的感知损失，用于判断原图像与生成图像的整体相似度。
在这里插入图片描述

目前faceswap-GAN完整的代码设计在GitHub的项目源码中可以找到。从应用的角度看，目前对于“换脸”依然大部分用于网络趣味性应用，比如国外知名的社交软件SnapChat就有一款非常流行的滤镜，可将用户的脸进行互换。此外从商用角度考虑，比如可以将该技术应用于电影制作中的后期处理，对于替身演员的人脸更换可以完全使用该技术来进行处理。

此外GAN也应用了到更多其他的人脸变化中，比如对于人脸的年龄变化预测。如下图所示，输入是年轻时候的照片，而输出则是随着年龄增长对于该用户长相改变的预测。
在这里插入图片描述

我的微信公众号是“人工智能知识分享”

在这里插入图片描述

以上是关于人工智能生成的合成媒体，DeepFake 了解一下的主要内容，如果未能解决你的问题，请参考以下文章

可以提高DeepFaceLab（DeepFake）合成最终视频速度的方法

EMNLP2020论文利用图神经网络和文本事实结构的机器生成文本检测（Deepfake Detection）

Deepfake 换脸真假难辨，马斯克分克已伪装成功

CV之Face Change：基于人工智能实现国内众多一线美女明星换脸(基于Face++输出4*106个特征点定位+融合代码deepfake技术)

AI高仿笔迹只需1个词，Deepfake文字版来了