On the Detection of Digital Face Manipulation

Posted 谌俊霖

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了On the Detection of Digital Face Manipulation相关的知识,希望对你有一定的参考价值。

目录

一、文章背景

二、Contributions

1、构建了更全面的fake face dataset

2、 将attention mechanism以模块化形式加入模型

 ​编辑的获取方式有两种,分别为Manipulation Appearance Model (MAM)与Direct Regression。

根据fake image是否能找到相应的 source image将损失函数模型分为了监督学习、弱监督学习以及无监督学习三种形式(指attention map)

三、实验

1、实验指标

2、消融实验


一、文章背景

        该文章于2020年发表于CVPR上,通过引入注意力机制实现deepfake detection,同时完成篡改区域的定位。论文链接为《On the Detection of Digital Face Manipulation》 源代码链接如下:cvlab.cse.msu.edu/project-ffd.html

二、Contributions

1、构建了更全面的fake face dataset

        该数据集包括0.8M(million)张真实图片以及由不同deepfake生成方法生成的1.8M张生成照片。生成方法包括identity and expression swap, Attributes manipulation, Entire face synthesis. 数据集实现了种族、性别、年龄、脸部尺寸、生成方式等方面的平衡。与其他数据集的比较见下表:

2、 将attention mechanism以模块化形式加入模型

        通过在bankbone中插入attention model提升了deepfake detection的准确度和定位篡改区域的精准度,并且在绝大多数数据集上取得了SOTA的表现。

         具体来说,该方法通过把(H为高,W为宽,C为通道数)(通过卷积获得的特征图)与 (attention map)对应元素相乘,试图获取对deepfake detection和定位篡改区域有利的特征图F‘,即:

 的获取方式有两种,分别为Manipulation Appearance Model (MAM)与Direct Regression。

        MAM方法认为manipulated map满足一种关于map的线性关系,所以认为受限制的可以通过下列式子求得:

其中都是预定义的参数,为权重参数。通过对100 个 由FaceAPP生成的ground_truth manipulation masks 进行主成分分析(PCA),比如对前十个主成分用作bases ,n = 10。

         Direct Regression通过一个卷积操作将变为, 这样可以获得一个自适应的attention map。

根据fake image是否能找到相应的 source image将损失函数模型分为了监督学习、弱监督学习以及无监督学习三种形式(指attention map)

        总损失函数为:,其中指分类损失,指attention map 损失,指损失权重。

        当能找到真实的ground truth attention masks时,以监督学习计算损失。通过计算注意力attention map与 ground truth attention masks的L1范数获得获取最具有区别性的区域。即:

通过计算在RGB通道下真实图像与伪造图像在像素件的差异,并将这种差异转化成灰度图像,再将其进一步转化成和同大小的元素值在0-1之间的map。

        当未能找到与fake image 相应的 source image时,以弱监督学习方式计算损失。

当照片为真时,可以认为所有元素均为0。当照片为假时,假设与真实照片的差距最大值为0.75,并将sigmoid后的最大值取出与0.75比较计算损失。

        以无监督形式计算损失时将设为0,即指使用分类损失

三、实验

1、实验指标

对于检测,报告了等错误率(EER)、ROC的曲线下面积(AUC)、假检测率(FDR)为0.01%时的真检测率(TDR )(记为),FDR时的TDR为0.1%(记为)。对于定位,与已知的ground-truth masks,我们报告像素级二进制分类精度(PBCA),它处理每个 像素作为一个独立的样本来测量分类精度,IOU,和两个向量化地图之间的余弦相似度。我们还提出了一种新的度量方法,称为Inverse Intersection Non-Containment (IINC),用于评估人脸操作定位性能。

 其中,I和U分别是地面真实图和预测图之间的交集和并集。分别为M的均值和L1范数。

2、消融实验

1、通过比较监督方式以及attention map的生成方式不同,证明了attention map 和监督学习的有效性。

 2、通过在不同backbone上添加attention module证明了attention map 的有效性

 3、通过训练集和测试集的不同,证明了数据集DFFD的有效性

 4、通过比较attention map,Ground truth masks证明了IINC指标的优越性

以上是关于On the Detection of Digital Face Manipulation的主要内容,如果未能解决你的问题,请参考以下文章

paper: The years of pedestrain Detection,what have we learned?

Progress and Prospect of target detection technology based on deep learning

深度学习论文翻译解析:Faster R-CNN: Down the rabbit hole of modern object detection

Impacts of Low-Voltage Distribution Grid Codes on Ancillary Services and Anti-Islanding Detection of

Detection of Rail Surface Defects Based on CNN Image Recognition and Classification-论文阅读笔记

P.Laguna/AUTOMATIC DETECTION OF WAVE BOUNDARIES IN MULTILEAD ECG SIGNALS VALIDATION WITH THE CSE DB