iPhone X的新解锁技术：用Python编写Face ID

Posted 2020-10-31 eryaketang

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了iPhone X的新解锁技术：用Python编写Face ID相关的知识，希望对你有一定的参考价值。

创建了无边框手机后，苹果不得不找出新方法简单快捷地解锁手机。虽然一些竞争对手继续使用放在不同位置的指纹传感器，但苹果决定对解锁手机的方式进行创新和变革：只需看一眼，FaceID就能安全地解锁iPhone X。借助一款先进（而且非常小巧）的前置深度相机，iPhone X可以建立用户脸部的3D模型。此外，iPhone X通过红外摄像头识别人脸，可以避免环境光和颜色对人脸识别的影响。通过深度学习，手机可以捕捉到用户脸部的很多细节，因此在用户拿着手机的时候，手机可以识别出它的主人。比较令人惊讶的是，苹果表示这种方法比TouchID更安全，出错率为百万分之一。

　　我对苹果的FaceID的实现技术非常感兴趣，特别是它完全运行在设备上，而且只需利用用户的面部进行一点点训练，就可以在每次拿起手机的时候顺利地进行识别。我研究了如何使用深度学习来实现此过程，以及如何优化每个步骤。在这篇文章中，我将展示如何使用Keras实现一个类似FaceID的算法。我会介绍采用的各种架构，并展示一些在Kinect（一种非常流行的RGB-D相机，拥有与iPhone X前置摄像头非常相似的输出，但设备本身更大）上的最终实验。倒杯咖啡，让我们开始逆向工程苹果的新技术。

　　对FaceID的初步了解

　　“……赋予FaceID力量的神经网络不是简单的分类。”

技术分享图片

FaceID注册的过程

　　第一步我们来仔细分析FaceID在iPhone X上的工作原理。我们可以通过苹果的白皮书理解FaceID的基本机制。使用TouchID的时候，用户必须多次按传感器来注册自己的指纹。大约需要15-20次不同的触摸，iPhone才能完成注册，并准备好TouchID。同样地，FaceID也需要用户进行脸部注册。过程非常简单：用户只需像往常一样看着手机，然后慢慢地转动头部一圈，从不同的角度注册脸部。如此，注册过程就完成了，手机已经准备好解锁了。这个超快的注册过程可以告诉我们很多关于底层学习算法的信息。比如，FaceID背后的神经网络并不是简单的分类。我会在后面进行详细的解释。

技术分享图片

Apple Keynote推出iPhone X和FaceID

　　对于神经网络来说，分类的意思是学习如何预测看到的脸是不是用户的脸。所以，它需要一些训练数据来预测“是”或“否”，但与很多其他深度学习的应用场景不同，所以这种方式在这里并不适用。首先，神经网络需要使用从用户脸上捕捉到的数据重新进行训练。而这需要消耗大量的时间和电量，还需要大量的不同面孔作为训练数据以获得负面的样本，这也是不现实的。即使是试图迁移并微调已经训练好的神经网络，这些条件也几乎不会变化。而且，苹果也不可能在实验室等地方“线下”训练复杂的神经网络，然后再将训练好的神经网络搭载在手机中。相反，我认为FaceID是由孪生卷积神经网络实现的（siamese-like convolutional neural network），该网络由苹果公司进行“线下”培训，将脸部映射到一个低维潜在空间（latent space），并通过对比损失函数（contrastive loss）最大化不同人脸之间的距离。通过本文，你可以了解Keynote中提到的体系结构。我知道，很多读者对上述名词很陌生，但是没关系，我会逐步的进行详细的解释。

技术分享图片

FaceID看起来会是TouchID之后的新标准。苹果是否会把它带到所有的新设备上？

　　从人脸到神经网络的数字

　　孪生神经网络基本上由两个完全相同的神经网络组成，它们所有的权重也都相同。这种结构可以计算特定类型的数据（如图像）之间的距离。基本思路是，将两组数据传递给孪生网络（或简单地将两组数据分两次传递给同一个神经网络），而这个网络会将数据映射到一个低维特征空间（就像一个n维数组），然后训练神经网络将不同类别下的数据点映射到尽可能远的地方，同时保证同一类的数据点又尽可能接近。从长远来看，这个网络将学习如何从数据中提取最有意义的特征，并将其压缩成一个数组，从而创建一个有意义的映射。为了对此有一个直观的理解，想象一下你如何使用小型矢量来描述狗狗的品种，并保证类似的狗狗具有最接近的矢量值。你可能会用一个数字来表示狗狗的毛色，另一个用来表示狗狗的大小，还有一个用于记录毛的长度，等等。通过这种方法，彼此相似的狗狗就可以拥有相似的矢量值。这个方法是不是很聪明？那么，孪生神经网络也可以做到这一点，类似于一个自动编码器。

技术分享图片

Hadsell，Chopra和LeCun发表的论文“Dimensionality Reduction by Learning an Invariant Mapping”。请注意此架构是如何学习数字之间的相似性，并自动将它们分组在二维中。类似的技术也可以应用于面部识别。

　　通过这种技术，只需使用大量面部数据来训练一个这种网络，就可以识别哪些面部最相似。如果拥有足够的预算和计算能力（就像苹果一样），我们甚至可以使用越来越难的例子（比如双胞胎）来强化这个神经网络，以便应对面具等恶意攻击。那么使用这种方法有什么优势呢？那就是我们终于有了现成的模型，只需要简单计算出用户的面部数据在潜在映射(latent map)中的位置，就可以识别出不同的用户，而无需额外训练。（就像前面说过的，我们记录下新的狗狗品种的矢量值，然后保存起来。）此外，FaceID还可以适应脸部的变化，包括突发性变化（比如眼镜、帽子、化妆等）以及缓慢变化（毛发等）。这基本上是通过向映射中增加参考矢量，并根据新外观进行计算而实现的。

技术分享图片

FaceID可以适应外观的变化

　　接下来，让我们看看如何利用Python和Keras实现。

　　使用Keras实现FaceID

　　就像所有的机器学习项目一样，我们首先需要的是数据。创建自己的数据集需要花费大量时间和许多人的配合，这项工作本身可能非常具有挑战性。因此，我搜索了网络上RGB-D的人脸数据集，找到了一个非常合适的数据集（http://www.vap.aau.dk/rgb-d-face-database/）。这个数据集是根据人脸面向不同的方向以及不同的表情制作出的RGB-D图像集，正好类似于iPhone X的情况。

　　最终的实现可以参考我的GitHub代码库（https://github.com/normandipalo/faceID_beta hbs90.cn），里面有个Jupyter Notebook。我还进一步尝试了使用Colab Notebook，你也可以试试看。

　　我创建了一个基于SqueezeNet架构的卷积网络。这个神经网络以两组RGBD的面部图像（即4通道图像）作为输入，并输出两组数据之间的距离。该网络用对比损失函数（constrastive loss）训练，可以最大程度地减少同一人的照片之间的距离，同时最大程度地提高不同人的照片之间的距离。

技术分享图片