菜鸡读论文Dive into Ambiguity: Latent Distribution Mining and Pairwise Uncertainty Estimation for Facia

Posted 猫头丁

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了菜鸡读论文Dive into Ambiguity: Latent Distribution Mining and Pairwise Uncertainty Estimation for Facia相关的知识,希望对你有一定的参考价值。

Dive into Ambiguity: Latent Distribution Mining and Pairwise Uncertainty Estimation for Facial Expression Recognition

大家好呀!
继续更新《菜鸡读论文》系列!
不知不觉已经到期中了,开始有点小恐慌,感觉也过了两个月了,但自己竟然还是啥也不会,每次组会都感觉没啥内容讲。而且,最恐怖的是,明明这样菜的我现在已经开始不慌不忙了,渐渐有了种我菜我骄傲的盲目自信。甚至今天要讲两篇论文,而我在昨天晚上十点才开始看,不知道该佩服自己还是怎么了。

言归正传,我觉得这篇论文的想法还是挺有意思的,真的是第一次接触到这种模型,觉得很新奇(OS:那可不,你看啥都新奇)。


这是CVPR2021的一篇文章,主要是为了解决现在表情数据集中标签模糊的问题,提出在训练的过程中可以利用模糊标签的一些特征,从而更好的进行训练学习。作者进行了一个实验,如下所示:
从AffectNet中随机选取了两张图片,请50个志愿者进行分类,可以看到上面这张Anger的图片最终probability最高的却是Neutral,而下面这张Neural表情虽然最终最高的是Neural但是Sad的probability也很高。
有两个可能的原因:
(1)标注者的主观性
(2)数据集中存在不确定性标签的样本
作者希望能从标签类别的潜在分布(一个标签为i类的样本在其他类别上的可能性)和两两不确定性(一个标签为i类的样本计算与其同一batch中其他图片的特征图的相似性来确定该样本的标签的置信度、即是否准确)来解决数据集标签模糊性的问题。


整个模型的结构如下图所示:
(我刚看到这个图的时候,真的有被吓到,这么多分支,这么多连接,还有这么多Loss,本菜鸡已经开始慌了,而且这个Classifier之后有一个Loss,为啥后面prediction之后还有Loss)
刷会儿手机压压惊,告诉自己死猪不怕开水烫,光脚的不怕穿鞋的,反正咱们就是硬着头皮看吧!

整个模型包括两个部分:
(1)C个挖掘潜在分布的辅助分支,一个具有相同结构的目标分支。
(2)两两不确定性估计,其中不确定性估计模型由两个FC层组成。每个辅助分支都充当C-1类的分类器去寻找样本x的潜在分布。
跟着作者的思路走,咱们分块一部分一部分的看:

Auxiliary Branches(辅助分支)

下图是一个Sad表情的图片但是被错误分类到Neutral,在AffectNet上训练的模型进行预测可以预测出正确的类别,当使用一个不使用Neural类别而是用其他类别的图像进行训练后的模型可以看到预测结果更加准确。因此,我们可以想到在模型训练过程中预测的类别分布可以帮助模型进行优化学习,在训练过程中模型可能会预测出正确的分类类别。

假设表情被分为C类,那么就需要C个分类器去预测每个类别的潜在分布,(第i个分类器用于预测类别为i的样本的潜在分布)。考虑到计算效率,共享低层特征(如上面完整模型架构图中的Low-level Layers),所有的分支都是相同的结构。

对于第j个辅助分支在训练计算时,使用除第i类的图像以外的其他C-1类图像来训练,辅助分支的损失为:


该损失用于训练辅助分支的分类准确率。
基于上述分析,此时将标签为i类的样本输入第j个分支得到的是其在其他类别上的潜在分布,作者进行了一个sharpen操作,来使得更加平滑,公式如下:

接下来,在潜在分布和目标分支的预测结果之间计算一个L2损失,该损失用来最小化目标分支的预测值域潜在分布之间的偏差,公式如下:


因为上述损失仅仅是利用标签空间做出约束,那么对于特征表示上的约束对于模型的训练也是有效的。例如,对于给定一对微小图像,除了告诉网络他们的标签相同都是happy之外,图像在不同分支上提取得到的语义特征应该也是相似的,因此引入一个不同分支特征的约束,即多分支相似性保持(MSP),公式为:


引入该约束是希望能够让目标分支提取特征的能力向7个辅助分支靠近。

Pairwise Uncertainty Estimation

诶嘿!看到这里!我们已经看完了一大半内容啦!看!你是不是超棒!给自己打打气!让我们接下来继续看这一部分,进度条已经不剩下多少了。

由于数据集中存在不确定模糊的样本,因此直接使用CELoss(交叉熵损失)来进行约束可能会导致模型下降(因为标签不一定准确),因此,在标准CELoss中加入一个权值,以此在样本空间中平衡潜在分布和样本标签。
具体来说,就是根据一个batch中样本之间的相似度来估计样本的置信度。如果该置信度偏低,则说明原有标签不够准确,需要更加着重于参考潜在分布的标签。

使用余弦距离来计算相似度,基于图片提取的语义特征,计算该图片与同一batch中其他图片(包括同类的图)的相似度,以此方法来找到这张图片真正属于哪一类(与哪一类图片更接近)。


进一步地,某个分类批次(batch)的模糊信息如下,其中batch size = N

不确定估计模块将SV作为输入,通过两个全连接层计算得到每个样本的置信度,置信度越大,代表这个样本的标签越正确。公式如下:

有了置信度以后,就可以利用置信度对目标分支进行加权训练。如下所示:

这样我们就得到了,整个模型的约束损失。
(1)在训练开始时,由辅助分支挖掘出的潜在分布不够稳定。因此,专注于对辅助分支的训练。
(2)在训练一定epoch数量之后,开始聚焦于训练目标分支上面。

以上是关于菜鸡读论文Dive into Ambiguity: Latent Distribution Mining and Pairwise Uncertainty Estimation for Facia的主要内容,如果未能解决你的问题,请参考以下文章

菜鸡读论文Face2Exp: Combating Data Biases for Facial Expression Recognition

菜鸡读论文Face2Exp: Combating Data Biases for Facial Expression Recognition

菜鸡读论文AU-assisted Graph Attention Convolutional Network for Micro-Expression Recognition

菜鸡读论文Margin-Mix: Semi-Supervised Learning for Face Expression Recognition

菜鸡读论文Margin-Mix: Semi-Supervised Learning for Face Expression Recognition

菜鸡读论文Learning-based Video Motion Magnification