CASIA WebFaceWIDDER FACEFDDBAFLWCelebA训练集详解

Posted 17岁boy想当攻城狮

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了CASIA WebFaceWIDDER FACEFDDBAFLWCelebA训练集详解相关的知识,希望对你有一定的参考价值。

目录

CASIA-WebFace

简介

优势

缺点

获取数据集

WIDDER FACE

简介

优势

缺点

获取数据集

FFDB

简介

优势

缺点

获取数据集

AFLW

简介

优势

缺点

获取数据集

CelebA

简介

优势

缺点

获取数据集


CASIA-WebFace

简介

CASIA-WebFace是一款免费开源的用于人脸识别的数据集,它是从IMDb网站上进行数据爬取,IMDb网站上包含了许多名人的照片以及姓名,CASIA-WebFace作者编写了一个爬虫软件,取爬取IMDb上的照片以及名称并保存下来,所以CASIA-WebFace也可以理解为包含了名人的数据集。

优势

它的优势在于具有非常多人脸特征,并且数据集里不会有重复特征,它的爬虫软件会使用人名作为哈希值来编写布隆过滤器,来过滤掉哪些重复数据集,并且它的数据集还在迭代更新,截至目前2021.12.30,共有一万五千个名人数据集和四十九万张照片。

并且它的数据集里还会对爬下来的照片进行裁剪,如在IMDb网站上李小龙的照片是这样的:

它会对其进行裁剪,忽略掉哪些杂项背景,只保留人脸区域 

同时每张照片会保留两份,来加强数据集的数据重复度以便增强可信度。

因为重复的图片会让机器学习重复的特征,重复的次数越多特征就越明显,让机器在图像中提取更多重复的数据用于加深特征

并且IMDb网站上的名人有不同的角度、光照的照片,其次这些名人来自不同的国家,种族,数据集非常丰富,用于识别图像中是否包含一个人是非常棒的数据集,训练完成之后可以识别不同肤色,不同种族,不同角度、灰阶图、光照下的人。

并且它的尺寸都被统一缩减为96x96,在图像识别方面将图像缩减到96x96对图像的像素损失最低同时尺寸大小也会变小,并且数据量也会减少,这对后续的卷积与池化会更快。

缺点

想要下载此数据集对于国内用户来说并不是特别友好,官网是在国外并且没有给出直接下载链接,需要去申请,目前在国内网站能够找到一些19年的数据集,大约在4.1G左右,最新的数据集需要去联系作者邮件填写自己的个人信息,教育机构,用途才能申请下来,申请周期也不明确,经过国内网友统计长则半年,短则数周。

其次是这个数据集只能用于识别人脸,不能做分类,因为它数据集里针对单一的名人数据集还是太少,只能用来做人脸检测,识别图像中是否包含人脸,不能做二次分类。

表情过于单一,只有微笑和面无表情,这个原因主要是因为数据集从IMDb上爬取的,上面的名人面对镜头时大多数都是微笑,当出现一些浮夸表情和一些非主流的发型还有一些骨骼线较为宽的脸型、有点胖的脸型时这样的场景下这个数据集就不太适合了。

获取数据集

你可以到官网联系作者获得数据集:CASIA-WEBFACE

WIDDER FACE

简介

WIDDER FACE数据集是由香港中文大学发起的,WIDDER FACE的数据集非常丰富具有遮挡、浮夸表情、宽脸等多种样本。

优势

WIDDER FACE数据集最大的优势就是它丰富的数据集,它拥有许多复杂场景的样本,如:充满灯光的酒吧、演唱会现场、充满火焰的场景,其次还拥有不同形态的人脸,如:脸上画满涂鸦、戴头盔、口罩,发胖的人,不同年龄段的人等,它的数据集非常丰富,其中也包含了人类的各种表情:哭泣、大笑、愤怒,甚至更多浮夸的表情,还所以它非常适合应用于通用的人脸识别上。

同时官网也给出了合适的最优的数据集比例,因为它的照片非常多,高达:393,703张,还在持续增长,官方建议是随机选取其中的10%-50%用于训练,官方也给出了在不同神经网络下使用10%-50%作为模型训练样本的P-R曲线图

以下曲线图都是在不同场景下测试出来的结果:

1.普通的人脸检测

2.生物特征识别

3.面部微表情检测

缺点

数据集过于庞大,对于国内用户来说下载仍然是一个不友好的事情,其次是数据集过于丰富,针对特定场景不是特别友好,如,我们可能只是想识别戴口罩的,但是它会识别出戴口罩与戴帽子和不戴口罩的,都会识别出来,当然我们也可以选取我们需要的那部分数据集,但是数据集过于庞大,整理起来也是较为耗时的。

还有一点是样本里复杂场景过多,特征会较多,针对识别会遍历更多的神经元,所以较为耗时,样本里的照片会包含许多场景,这些场景如果在深度学习时不进行删除的话,那么背景也会被视为特征的一部分。

如果在针对单一场景下的人脸检测时这个数据集就显得不是那么合适了。

获取数据集

你可以到官方网站下载到数据集:WIDER FACE

FFDB

简介

FDDB全拼是Face Detection Data Set and Benchmark(人脸检测数据集与基准)是一款专门针对人脸识别算法的评测方法与标准,是由Vidit Jain维护发起目前由Aruni Roy Chowdhury维护,它主要作用不是用来做训练集,而是测试集,因为它里面的样本数据涵盖:遮挡、罕见姿态、低分辨率以及失焦的情况等等。

优势

FDDB可以称为测试集,它里面的数据样本包括了:彩色图、灰度图、不同尺寸的图像,以及人脸的各种特征:遮挡,罕见表情,低分辨率、不同视角下的人脸,如下所示:

在不同的情况下都有对应的人脸特征,截至2022.1.4号,目前FDDB的人脸特征数据集总照片达到2845张,其中这些照片里包含人脸的数量达到5171个,不同视角,不同角度,不同光源,不同遮挡,不同场景的人脸图片均包含在内。

通常我们都用它来评估我们的人脸识别的神经网络与模型,用它来做测试集并生成对应的ROC与P-R曲线图,来衡量我们神经网络的指标。

缺点

准确来说它并没有什么缺点,它主要作用是应用于测试集,不是训练集,它的测试难度较为难,因为它涵盖了非常多的不同视角下的特征样本,对神经网络模型要求较高,如果你的Face ID神经网络模型训练集达不到要求的情况下,生成的混淆矩阵并不是特别好,那么对应生成的ROC,P-R曲线图也不会很好。

其次是下载问题,它没有直接下载链接,你需要去官网申请。

获取数据集

你可以到官网下载:FDDB:Main

AFLW

简介

AFLW数据集是由格拉茨科技大学 – 计算机图形与视觉研究所于 2011 年发布,相关论文是:Annotated Facial Landmarks in the Wild: A Large-scale、Real-world Database for Facial Landmark Localization,这款数据集是一个庞大的数据集,它包含了:姿势、表情、种族、年龄、性别以及一些一般场景环境下的人脸数据集。

优势

AFLW是一款庞大的数据集,它几乎涵盖了人脸可能出现的情况,甚至对人脸样本进行了左右镜像,包含不同颜色空间的图像,同时它的样本被人工标记了,它的训练集里包含了一个数据库文件,针对每一张照片都进行了标记,标记了这张照片里人脸的位置、21点标注信息,这里说一下什么是21点标注信息:21点标注信息是最近才出现的特征点标注信息,如最常见的手势识别,我们需要获取手势的拇指关节来判定手指进行了怎样的变化,下图是手指的21点标注信息:

拥有了21点信息我们可以获取人脸的微表情,可以实时检测人脸微表情的变化 

目前最大的人脸标注点达96位 

有了这些特征点坐标后我们可以在训练时增加初始标注样本信息,目前大多数CNN深度卷积训练框架都是自动化检测特征点的,但是针对21点、61点这样的信息几乎不支持,所以我们一般是在训练时基于初始坐标值让学习框架在学习时进行微调,在控制输出层信息。

目前AFLW的特征点是21点,21点标注点如下:

目前2022.1.4号,它的图像达到2万4千多张,其中女性占51%、男性占49%,包含少量灰度色彩图像,并且它的全部图像都被手工标注了方框范围以及21点的坐标系。

缺点

数据集过于庞大,下载下来以后需要手工提取数据库中照片的坐标系,当然你也可以写脚本提取出来,并且下载也是非常不方便的,其次是图像大多数是RGB真彩图,灰阶图较少。

获取数据集

你可以到官网去申请:ALFW

CelebA

简介

CelebA是由香港中文大学发起的,它是开放的,任何人都可以免费下载到它,截至目前2022.1.4它数据集中包含10,177个名人身份的202,599张人脸图片的数据集,截至目前2022.14,它共有:

  • 10,177身份

  • 202,599脸部图像

  • 5个地标位置,每个图像40个二进制属性注释。

优势

CelebA提供了每个人脸提供了5个点的人脸关键点(方框与属性)坐标,以及40个二进制属性,这40个属性如下:

01 5_o_Clock_Shadow 胡子,(清晨刮脸的人傍晚已长出的短髭 ) 
02 Arched_Eyebrows 柳叶眉 
03 Attractive 有魅力的 
04 Bags_Under_Eyes 眼袋 -
05 Bald 秃头的 
06 Bangs 刘海 
07 Big_Lips 大嘴唇 
08 Big_Nose 大鼻子 
09 Black_Hair 黑发 
10 Blond_Hair 金发 
11 Blurry 睡眼惺松的 
12 Brown_Hair 棕发 
13 Bushy_Eyebrows 浓眉 
14 Chubby 丰满的 
15 Double_Chin 双下巴 
16 Eyeglasses 眼镜 
17 Goatee 山羊胡子 
18 Gray_Hair 白发,灰发 
19 Heavy_Makeup 浓妆 
20 High_Cheekbones 高颧骨 
21 Male 男性 
22 Mouth_Slightly_Open 嘴轻微的张开 
23 Mustache 胡子 
24 Narrow_Eyes 窄眼 
25 No_Beard 没有胡子 
26 Oval_Face 瓜子脸,鹅蛋脸 -
27 Pale_Skin 白皮肤 
28 Pointy_Nose 尖鼻子 
29 Receding_Hairline 发际线; 向后梳得发际线 -
30 Rosy_Cheeks 玫瑰色的脸颊
31 Sideburns 连鬓胡子,鬓脚
32 Smiling 微笑的
33 Straight_Hair 直发
34 Wavy_Hair 卷发; 波浪发
35 Wearing_Earrings 戴耳环
36 Wearing_Hat 带帽子
37 Wearing_Lipstick 涂口红
38 Wearing_Necklace 带项链 
39 Wearing_Necktie 戴领带
40 Young 年轻人

重要的是它目前是免费的,可以免费直接在官网下载到它,同时它提供五官以及面部的局部图片,如上面的属性所示,可以在训练集中找到它们,并且它们是已经被打包分类了,可以用于定位人脸以及人脸局部五官、发型、耳朵。

缺点

CelebA没有太大的缺点,小缺点就是它复杂场景较多,针对训练时需要更多的时间,以及更好的机器。

获取数据集

你可以在官网直接下载:CelebA

以上是关于CASIA WebFaceWIDDER FACEFDDBAFLWCelebA训练集详解的主要内容,如果未能解决你的问题,请参考以下文章

基于CASIA-GaitDatasetB步态图像轮廓数据库的步态周期检测与步态角度特征MATLAB源码

(ICCV-2021)用于步态识别的上下文敏感时间特征学习

深度学习分类常用数据集

图像识别基于matlab实现步态周期检测与步态角度特征

图像识别基于matlab实现步态周期检测与步态角度特征

Innerclasses