[ZZ] 深度学习三巨头之一来清华演讲了，你只需要知道这7点

Posted 2020-10-09 点滴

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了[ZZ] 深度学习三巨头之一来清华演讲了，你只需要知道这7点相关的知识，希望对你有一定的参考价值。

深度学习三巨头之一来清华演讲了，你只需要知道这7点

http://wemedia.ifeng.com/10939074/wemedia.shtml

Yann LeCun还提到了一项FAIR开发的，用于检测、分割、识别单张图像中每个物体的技术，比如在一盘菜里检测、分割、并识别出西兰花来、又或是在一堆羊群里分割出每只羊，其核心流程为以下三步（去年8月都已开源）：

1）使用DeepMask这个新型框架对物体进行检测与分割，生成初始对象掩膜（Mask，相当于一个覆盖区域）；

2）使用SharpMask模型优化这些对象掩膜；

3）使用MutiPathNet卷积网络识别每个掩膜所框定的物体。

值得一提的是，MutiPathNet中使用了一种新型的对象实例分割（Instance Segmentation）框架：Mask R-CNN。这是FAIR研究员何凯明（Kaiming He）——同时也是深度残差网络ResNet的作者之一——最近公布的研究成果，它是Faster R-CNN的扩展形式，能够有效地检测图像中的目标，同时还能为每个实例生成一个高质量的分割掩膜（Segmentation Mask）。

3、常识是个好东西，希望大家都有

此外，Yann LeCun还提到了如今AI发展过程中遇到的几大困难：

1）机器需要学习/理解世界的运行规律（包括物理世界、数字世界、人……以获得一定程度的常识）

2）机器需要学习大量背景知识（通过观察和行动）

3）机器需要理解世界的状态（以做出精准的预测和计划）

4）机器需要更新并记住对世界状态的估测（关注重大事件，记住相关事件）

5）机器需要逻辑分析和规划（预测哪些行为能让世界达到目标状态）

目前机器学习中最大挑战之一就是如何让机器拥有常识——即让机器获得填充空白的能力。比如“John背起包来，离开了房间”，由于人类具备常识，因此我们能够知道John在这个过程中需要站起来，打开房门，走出去——他不会是躺着出去的，也不会从关着的门出去，可机器并不知道这一点。又或者我们即使只看到了半张人脸也能认出那人是谁，因为人类常识里左右脸都是通常长得差不多，但机器同样不具备这种能力。

下文提到的无监督/预测学习可以让机器获得常识，现在我们常用的监督学习并做不到这一点。从本质上来说，在无监督学习方面，生物大脑远好于我们的模型。

4、无监督学习才是蛋糕本身

“是的、是的，我知道你们在想什么——那个蛋糕比喻又来了，”切到这张幻灯片时，Yann LeCun笑着说，“这已经是我在人工智能领域的一个梗了。”

在大大小小的无数场演讲中，Yann LeCun不止一次，甚至不止十次地打过这个比方：如果人工智能是一块蛋糕，强化学习（Reinforcement Learning）就是蛋糕上的一粒樱桃，而监督学习（Supervised Learning）是蛋糕外的一层糖霜，但无监督学习/预测学习（Unsupervised/Predictive Learning）才是蛋糕本身。目前我们只知道如何制作糖霜和樱桃，却不知道如何做蛋糕。

我们现在对深度神经网络的训练，用的大部分还是监督学习的方式。你将一张图片展现给系统并告诉它这是一辆车，它就会相应调整它的参数并在下一次说出“车”。然后你再展现给它一张桌子，一个人。在几百个例子、耗费几天到几周的计算时间之后，它就弄明白了。“这其实并不是一个非常复杂的概念。”

其次，对于一个AI系统来说，预测+规划=逻辑分析（Predicting + Planning = Reasoning）。如果想要让机器能够了解并且预测世界的规律，强化学习（Reinforcement Learning）需要建立一个世界模拟器（World Simulator），模拟真实世界的逻辑、原理、物理定律等。不过真实世界太过复杂，存在大量的表征学习参数，使得机器学习的计算量相当冗余，听起来似乎很诱人，但是在有限的时间内无法学习到成千上亿的参数。

而无监督学习需要机器处理大量没有标记的数据，就像给它一堆狗的照片，却不告诉它这是一条狗。机器需要自己找到区分不同数据子集、集群、或者相似图像的办法，有点像婴儿学习世界的方式。

5、无监督学习的一些突破性的尝试与结果

无监督学习的一大困难之处在于：对不确定性的预测。比如当你将一支笔直立在桌面上时，松开手的那一刻，你并不知道这只笔将会朝哪个方向倒下。如果系统回答这只笔会倒下，却判断错误了倒下的方向，我们需要告诉系统，虽然你不是完全正确，但你的本质上是正确的，我们不会惩罚你。此时需要引入曲面的成本函数，只要系统回答在曲面之下的数据，都是正确的答案。

两者的关系就像一个骗子和一个测谎者。判别器这位测谎者要不断优化自己，尽可能地识别出发生器生成的“假图像”，防止自己被骗；而生成器这个骗子为了瞒过判别器，也必须不断进步。在这种动态的对抗中，生成器会得到训练，最后开始生成非常真实的图片，这意味着生成器掌握了图像的特征，自己掌握成本函数——某种意义上，这就是无监督学习。

以上是关于[ZZ] 深度学习三巨头之一来清华演讲了，你只需要知道这7点的主要内容，如果未能解决你的问题，请参考以下文章