人脸检测之Joint Cascade Face Detection and Alignment 笔记---ECCV2014

Posted 2020-07-07 刘二毛

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了人脸检测之Joint Cascade Face Detection and Alignment 笔记---ECCV2014相关的知识，希望对你有一定的参考价值。

人脸检测（detection）在opencv中早就有直接能拿来用的haar分类器，基于Viola-Jones算法。但是毕竟是老掉牙的技术，Precision/Recall曲线渣到不行，在实际工程中根本没法给boss看，作为MSRA脑残粉，这里介绍一种MSRA在14年的最新技术 ：下点击打开链接载 。这篇文章直接在30ms的时间里把detection和alignment都给做了，PR曲线彪到很高，时效性高，内存占用却非常低，在一些库上虐了Face++和Google Picasa，正好契合这篇想讲的东西。可以作为本节的主线。

人脸校准（alignment）是给你一张脸，你给我找出我需要的特征点的位置，比如鼻子左侧，鼻孔下侧，瞳孔位置，上嘴唇下侧等等点的位置。如果觉得还是不明白，看下图：

图中黄色框框就是在做detection，白色点点就是在做alignment。如果知道了点的位置做一下位置驱动的变形，脸就成正的了，如何驱动变形不是本节的重点，在此省略。首先介绍一下下面正文要写的东西，文中根据“boosted cascade structure+ simple features”的原则由于干货非常多所以可能会看着看着就乱了，所以给出框架图：

作者用了一个叫post classifier的分类器，具体操作方法如下：

1.首先作者调用opencv的Viola-Jones分类器，将recal阀值设到99%，这样能够尽可能地检测出所有的脸，但是同时也会有非常多的不是脸的东东被检测出来。于是，检测出来的框框们被分成了两类：是脸和不是脸。这些图片被resize到96*96。

2.特征提取：接下来是特征提取，怎么提取呢？作者采用了三种方法，有和没有校准的：

1. we divide the window into 6*6 non-overlapping cells and extract a SIFT descriptor in each cell.
2. we use a fixed mean face shape with 27 facial points and extract a SIFT descriptor centered on each point.
3. we align the 27 facial points using the alignment algorithm in [21] and extract a SIFT descriptor centered on each point.

第一种：把window划分成6*6个小windows，分别提取SIFT特征，然后连接着36个sift特征向量成为图像的特征。

第二种：先求出一个固定的脸的平均shape（27个特征点的位置，比如眼睛左边，嘴唇右边等等），然后以这27个特征点为中心提取sift特征，然后连接后作为特征。

第三种：用他们组去年的另一个成果Face Alignment at 3000 FPS via Regressing Local Binary Features (CVPR14) ，也就是图中的3000FPS方法，回归出每张脸的shape，然后再以每张脸自己的27个shape points为中心做sift，然后连接得到特征。

3.分类：将上述的三种特征分别扔到线性SVM中做分类，训练出一个能分辨一张图是不是脸的SVM模型。

但是问题来了：如果把所有的windows都做一下alignment，即使是3000 faces per second的速度一张图可能也要处理上1秒，这无法满足一般一秒30帧的实时需求。作者也说，用opencv分类器，参数设成99%的recall率将会带来很严重的效率灾难——一张图能找出来3000个框，处理一张图都要好几秒。

这么渣的效率可咋办呢？以上内容已经证明了alignment确实对detection的preciseness有帮助，这就够啦，对下面的工作也是个启发——能不能在做detection的同时把alignment做了呢？alignment的中间结果是否能给detection带来一些帮助呢？后面慢慢讲。先说两个通用的面部检测和矫正的模型，翻译自论文：

如何实现回归校准（Cascade Alignment）呐？

这里介绍的是一个人在10年发的文章：Cascaded Pose Regression (CVPR10)，给图像一个初始shape（通常采用平均shape），然后通过一次一次的回归把shape回归到正确的地方。算法结构很简单，但是效果确实非常好：

回归过程如下：首先提取特征，原作者采用的是Pose-Indexed point features，然后根据特征训练回归函数（可以用线性回归，CART，随机森林等等），原作者采用了一个叫Random Fern Regressor的东西，回归出这一阶段的偏移量，然后shape加上这个偏移量，反复这一过程，直到迭代上限或者shape错误率不再下降。

随机蕨的算法过程和随机森林类似，他是一个半朴素贝叶斯模型。更为详细的介绍,可以参考这个哥们的博客点击打开链接.首先选取M组每组K个特征建立M个蕨（弱分类器），然后假设蕨内特征是相关的，蕨间特征是独立的，这样从统计学上随机蕨是一个完整的把朴素贝叶斯分类器，让计算变得简单：

式中C代表分类，ci代表第I类，M代表蕨数量。

以上是关于人脸检测之Joint Cascade Face Detection and Alignment 笔记---ECCV2014的主要内容，如果未能解决你的问题，请参考以下文章

如何识别检测到的人脸位置

人工智能之基于face_recognition的人脸检测与识别

python opencv3 静态图片检测人脸

计算机视觉·OpenCV使用Haar+Cascade实现人脸检测

使用矩形的左上角和右下角裁剪矩形人脸检测框内的区域

使用 yolov4 人脸检测和 face_recognition