WIDDER FACE数据集最大的优势就是它丰富的数据集，它拥有许多复杂场景的样本，如：充满灯光的酒吧、演唱会现场、充满火焰的场景，其次还拥有不同形态的人脸，如：脸上画满涂鸦、戴头盔、口罩，发胖的人，不同年龄段的人等，它的数据集非常丰富，其中也包含了人类的各种表情：哭泣、大笑、愤怒，甚至更多浮夸的表情，还所以它非常适合应用于通用的人脸识别上。

同时官网也给出了合适的最优的数据集比例，因为它的照片非常多，高达：393,703张，还在持续增长，官方建议是随机选取其中的10%-50%用于训练，官方也给出了在不同神经网络下使用10%-50%作为模型训练样本的P-R曲线图

以下曲线图都是在不同场景下测试出来的结果：

1.普通的人脸检测

2.生物特征识别

3.面部微表情检测

缺点

数据集过于庞大，对于国内用户来说下载仍然是一个不友好的事情，其次是数据集过于丰富，针对特定场景不是特别友好，如，我们可能只是想识别戴口罩的，但是它会识别出戴口罩与戴帽子和不戴口罩的，都会识别出来，当然我们也可以选取我们需要的那部分数据集，但是数据集过于庞大，整理起来也是较为耗时的。

还有一点是样本里复杂场景过多，特征会较多，针对识别会遍历更多的神经元，所以较为耗时，样本里的照片会包含许多场景，这些场景如果在深度学习时不进行删除的话，那么背景也会被视为特征的一部分。

如果在针对单一场景下的人脸检测时这个数据集就显得不是那么合适了。

获取数据集

你可以到官方网站下载到数据集：WIDER FACE

FFDB

简介

FDDB全拼是Face Detection Data Set and Benchmark（人脸检测数据集与基准）是一款专门针对人脸识别算法的评测方法与标准，是由Vidit Jain维护发起目前由Aruni Roy Chowdhury维护，它主要作用不是用来做训练集，而是测试集，因为它里面的样本数据涵盖：遮挡、罕见姿态、低分辨率以及失焦的情况等等。

优势

FDDB可以称为测试集，它里面的数据样本包括了：彩色图、灰度图、不同尺寸的图像，以及人脸的各种特征：遮挡，罕见表情，低分辨率、不同视角下的人脸，如下所示：

在不同的情况下都有对应的人脸特征，截至2022.1.4号，目前FDDB的人脸特征数据集总照片达到2845张，其中这些照片里包含人脸的数量达到5171个，不同视角，不同角度，不同光源，不同遮挡，不同场景的人脸图片均包含在内。

通常我们都用它来评估我们的人脸识别的神经网络与模型，用它来做测试集并生成对应的ROC与P-R曲线图，来衡量我们神经网络的指标。

缺点

准确来说它并没有什么缺点，它主要作用是应用于测试集，不是训练集，它的测试难度较为难，因为它涵盖了非常多的不同视角下的特征样本，对神经网络模型要求较高，如果你的Face ID神经网络模型训练集达不到要求的情况下，生成的混淆矩阵并不是特别好，那么对应生成的ROC，P-R曲线图也不会很好。

其次是下载问题，它没有直接下载链接，你需要去官网申请。

获取数据集

你可以到官网下载：FDDB：Main

AFLW

简介

AFLW数据集是由格拉茨科技大学 – 计算机图形与视觉研究所于 2011 年发布，相关论文是：Annotated Facial Landmarks in the Wild: A Large-scale、Real-world Database for Facial Landmark Localization，这款数据集是一个庞大的数据集，它包含了：姿势、表情、种族、年龄、性别以及一些一般场景环境下的人脸数据集。

优势

AFLW是一款庞大的数据集，它几乎涵盖了人脸可能出现的情况，甚至对人脸样本进行了左右镜像，包含不同颜色空间的图像，同时它的样本被人工标记了，它的训练集里包含了一个数据库文件，针对每一张照片都进行了标记，标记了这张照片里人脸的位置、21点标注信息，这里说一下什么是21点标注信息：21点标注信息是最近才出现的特征点标注信息，如最常见的手势识别，我们需要获取手势的拇指关节来判定手指进行了怎样的变化，下图是手指的21点标注信息：

拥有了21点信息我们可以获取人脸的微表情，可以实时检测人脸微表情的变化

目前最大的人脸标注点达96位

有了这些特征点坐标后我们可以在训练时增加初始标注样本信息，目前大多数CNN深度卷积训练框架都是自动化检测特征点的，但是针对21点、61点这样的信息几乎不支持，所以我们一般是在训练时基于初始坐标值让学习框架在学习时进行微调，在控制输出层信息。

目前AFLW的特征点是21点，21点标注点如下：

目前2022.1.4号，它的图像达到2万4千多张，其中女性占51%、男性占49%，包含少量灰度色彩图像，并且它的全部图像都被手工标注了方框范围以及21点的坐标系。

缺点

数据集过于庞大，下载下来以后需要手工提取数据库中照片的坐标系，当然你也可以写脚本提取出来，并且下载也是非常不方便的，其次是图像大多数是RGB真彩图，灰阶图较少。

获取数据集

你可以到官网去申请：ALFW

CelebA

简介

CelebA是由香港中文大学发起的，它是开放的，任何人都可以免费下载到它，截至目前2022.1.4它数据集中包含10,177个名人身份的202,599张人脸图片的数据集，截至目前2022.14，它共有：

10,177个身份，
202,599个脸部图像
5个地标位置，每个图像40个二进制属性注释。

优势

CelebA提供了每个人脸提供了5个点的人脸关键点（方框与属性）坐标，以及40个二进制属性，这40个属性如下：

01 5_o_Clock_Shadow 胡子，（清晨刮脸的人傍晚已长出的短髭）
02 Arched_Eyebrows 柳叶眉
03 Attractive 有魅力的
04 Bags_Under_Eyes 眼袋 -
05 Bald 秃头的
06 Bangs 刘海
07 Big_Lips 大嘴唇
08 Big_Nose 大鼻子
09 Black_Hair 黑发
10 Blond_Hair 金发
11 Blurry 睡眼惺松的
12 Brown_Hair 棕发
13 Bushy_Eyebrows 浓眉
14 Chubby 丰满的
15 Double_Chin 双下巴
16 Eyeglasses 眼镜
17 Goatee 山羊胡子
18 Gray_Hair 白发，灰发
19 Heavy_Makeup 浓妆
20 High_Cheekbones 高颧骨
21 Male 男性
22 Mouth_Slightly_Open 嘴轻微的张开
23 Mustache 胡子
24 Narrow_Eyes 窄眼
25 No_Beard 没有胡子
26 Oval_Face 瓜子脸，鹅蛋脸 -
27 Pale_Skin 白皮肤
28 Pointy_Nose 尖鼻子
29 Receding_Hairline 发际线; 向后梳得发际线 -
30 Rosy_Cheeks 玫瑰色的脸颊
31 Sideburns 连鬓胡子，鬓脚
32 Smiling 微笑的
33 Straight_Hair 直发
34 Wavy_Hair 卷发; 波浪发
35 Wearing_Earrings 戴耳环
36 Wearing_Hat 带帽子
37 Wearing_Lipstick 涂口红
38 Wearing_Necklace 带项链
39 Wearing_Necktie 戴领带
40 Young 年轻人

重要的是它目前是免费的，可以免费直接在官网下载到它，同时它提供五官以及面部的局部图片，如上面的属性所示，可以在训练集中找到它们，并且它们是已经被打包分类了，可以用于定位人脸以及人脸局部五官、发型、耳朵。

缺点

CelebA没有太大的缺点，小缺点就是它复杂场景较多，针对训练时需要更多的时间，以及更好的机器。

获取数据集

你可以在官网直接下载：CelebA

以上是关于CASIA WebFaceWIDDER FACEFDDBAFLWCelebA训练集详解的主要内容，如果未能解决你的问题，请参考以下文章

基于CASIA-GaitDatasetB步态图像轮廓数据库的步态周期检测与步态角度特征MATLAB源码

（ICCV-2021）用于步态识别的上下文敏感时间特征学习

深度学习分类常用数据集

图像识别基于matlab实现步态周期检测与步态角度特征

Innerclasses