除了从图象和视频中精准的获取这些基础语义信息,深度学习还能处理图像,比如去噪、去雾、去雨、去模糊、超分辨等。这里展示了三张非常模糊的照片,看到这样的图像,我们会很自然的想到这样的问题:为什么照相的时候会产生模糊?过去我们拿到这样的照片,主要考虑如何有效的去除模糊,今天有了深度学习,我们能够想一些更有意思的事情。既然模糊是由于相机运动产生的,那么有运动,我们是不是可以把这个视频恢复出来?是不是可以把场景的光流恢复出来?甚至是不是可以把整个场景的三维结构恢复出来?2019年的CVPR上,我们首次利用深度学习成功的从单张模糊图像中把场景的三维结构恢复出来。深度学习似乎完全改变了机器视觉研究的基本方案和思路,可以说今天的机器视觉,几乎离不开深度学习。不少人也诟病深度学习没有实质的技术进展,只是传统的神经网络进行了加深。目前的成功应用,主要的贡献来自于大数据、超级计算(或者说是云计算)。有了大数据、有了云计算,才能使得我们今天的深度学习能够训练成功,这一切的原动力很大程度上要归功于产业界的需求、政府的需求、以及我们自身的需求。深度学习,为什么要深以及其它基本问题目前的深度学习是不是仅仅是网络层的简单堆叠?它对于机器视觉等领域的贡献到底是什么呢?要深入理解这样的问题,我们需要回到统计学习。我们知道统计学习涉及训练误差、测试误差和泛化误差。随着模型复杂度的增加,训练误差一定是减小的,但是泛化误差是增加的。所以我们需要找到训练误差和泛化误差的平衡点,保证测试误差尽可能的小。如果说随着网络层数的增加,泛化误差是增加的,那训练极深层网络的意义是什么?我们也知道训练神经网络的时候,各个公司之前都标榜可以训练更深的神经网络模型。而事实也是,随着网络层数的增加,只要训练得当,测试误差也通常是减小的。这似乎与我们的传统认识是矛盾的:因为越深的神经网络,参数空间越大,模型复杂度也应该越高。传统的统计学习理论认为,参数空间越大,模型复杂度越高,那么它对训练数据的拟合能力就越强,但是泛化能力会变得越差。对于一个机器学习模型,如果它的训练误差远小于测试误差,那么它就发生了过拟合。因此,在现有的统计学习理论框架下,对于神经网络,有两个尚未解决的问题:首先,为什么模型复杂度非常高的深度神经网络,不会发生过拟合?其次,深度神经网络是越深越好吗?我们最近的研究有三个观察("An Information-Theoretic View for Deep Learning"):和传统的浅层学习模型(例如,SVM)不同,深度神经网络具有层级的特征映射结构。神经网络的这种层级的结构是否是在模型复杂度很高的情况下,避免发生过拟合的关键呢?我们的工作肯定地回答了这个问题:层级结构是深度神经网络泛化能力的关键保证。1、 传统的泛化误差上界,都是通过模型的函数空间的复杂度来估计的,例如VC维,Rademacher复杂度。这种估计忽略了数据分布,考虑模型的函数空间里最坏的情况。因此泛化误差上界的估计对于函数空间很大的深度模型会非常松,而因此不再适用,而实际情况下,模型的泛化能力是和数据分布相关的。受到最近的一些在信息论和自适应数据分析的工作的启发,我们可以用神经网络学到的特征T_L和最后一层网络的参数h的互信息,来作为泛化误差的上界。直观地来讲,网络的输出对于输入的依赖性越小,其泛化能力越强。3、受到信息论中数据处理不等式的启发,只要网络每一层的映射不是可逆的,例如使用了Relu激活函数,卷积和池化,网络所学到的特征和最后一层参数的互信息都会随着层数的增加而减少。因此,网络越深,模型的泛化能力越强。但是随着网络层数的增加,在映射过程中可能会丢失对于数据拟合的有用的信息,这种情况下,在训练集上的拟合误差会变大。因此,网络越深泛化能力虽然随着层数增加变得更强,但是要想整个网络性能好,是建立在对训练数据的拟合误差很小的情况下。我们的主要结论是这样一个泛化误差的上界,假设网络的层数为L,那么其泛化误差会随着层数的增加而指数衰减。当然这里还有一些假设,比如不能有skip connections。深入理解深度学习的价值和意义,还需要大家付出更多的努力。但是目前的结论已经让我们有足够的信心,坚定深度学习这个大方向。那么残差链接skip connections有什么样的作用呢?残差连接已被众多实验证明,可以显著降低神经网络的训练难度,且不会降低神经网络的泛化能力。我们的工作"Why ResNet works? Residual generalize"(TNNLS 2020)使用covering number、Rademacher复杂度等理论工具,给出了ResNet的假设空间复杂度和泛化误差的上界。这些结果进而和链状网络的结果进行了比较。比较显示,引入残差连接不会增大神经网络的假设空间复杂度,进而不会降低神经网络的泛化能力,从而从理论方面验证了现有的实验结果。这样的分析具有相当的普适性,可以用于深入理解ResNeXt、DenseNet、U-Net等目前常用的网络结构。神经网络的训练过程极端依赖超参数的设置。我们的工作"Control batch size and learning rate to generalize well: Theoretical and empirical evidence"(NeurIPS 2019)从理论和实验两个角度,研究学习率和批量规模对神经网络泛化能力的影响。在理论方面,我们使用Ornstein-Uhlenbeck过程和PAC-Bayes 理论得到了神经网络的泛化误差上界。该上界表明,神经网络的泛化能力和学习率与批量规模的比值负相关。在实验方面,我们在相同数据集上,基于相同网络结构,用不同的学习率和批量规模训练了1600个网络。这些网络的测试精度被划分为164组进行了斯皮尔曼秩相关检验,实验结果充分验证了上述提到的相关关系。理解神经网络风险函数的几何性质对研究神经网络的表示能力、优化性质、泛化性质都非常重要 。然而损失曲面(风险函数所对应的曲面)的几何结构极端复杂,鲜有理论工作进行了精确地刻画。曾有工作建议,可以把线性网络(激活函数全部线性的神经网络)损失曲面的几何性质推广到一般网络。例如,线性网络中,所有局部最优点都同样地好,它们都是全局最优点。我们的工作"Piecewise linear activations substantially shape the loss surface of neural networks"(ICLR2020)指出,往线性网络中引入非常常见的分段线性激活函数(例如,ReLU 和 Leaky-ReLU),可以显著改变损失曲面的几何性质。具体来说,我们得到了以下几个结论:1、 损失曲面存在无穷多局部最优点劣于全局最优点(这些局部最优点又叫"谬点(spurious local minima)");2、 极端不可微且非凸的损失曲面被不可微的边界划分为若干几何性质良好(光滑、多线性)的"细胞";3、 在每一个细胞中,所有局部最优点都同样好,它们都是细胞内的全局最优点;4、 有无穷多的谬点分布在同一个细胞中,它们连在一起,构成一个联通的"山谷";5、线性网络的损失曲面也包含在上述理论之中,对应了单细胞的情形。今天的深度学习,和过去传统的机器学习或者统计学习,有很好的纵向对比关系。基于统计学习的系统:拿到原始数据之后我们先抽特征,然后是数据降维,最后做分类。这三个步骤的目标往往是不一致的,比如分类的目标是不同类的样本的边界最大化、降维的目标是保持数据网差、特征提取是根据数据的一些属性进行设计的。过去我们没有考虑到如何把特征设计、数据降维和分类的目标一致化,因为特征的设计完全是基于人的经验,非常的复杂。深度学习把特征提取、数据降维和分类整合到了一个网络框架下,因此这三个步骤的目标都一致了,并且通过数据驱动的方式,深度学习在一定程度上可以减少人对问题的偏见,但是也同时引入的数据对问题的偏见。这也要求我们在构建训练数据集的时候,要从不同角度考虑问题,减少偏见。对抗生成网络的重要性学习和操控现实世界数据(如图像)的概率分布是统计和机器学习的主要目标之一,而近些年提出的深度生成对抗网络(GAN)就是学习复杂数据概率概率分布的常用方法。GAN网络一经提出就引起了学术界和工业界的广泛关注,这是因为这个学习框架在许多生成相关的任务上取得了令人信服的表现,例如图像生成,图像"翻译"和风格变换。但是,现有算法仍面临许多训练困难,例如,大多数GAN需要仔细平衡生成器和判别器之间的能力。不适合的参数设置会降低GAN的性能,甚至难以产生任何合理的输出。根据我们的观察,现有生成对抗网络的训练函数具有不同的优点和缺点,其预定义的对抗优化策略可能导致生成对抗网络训练时的不稳定。受自然演化启发,我们设计了一个用于训练生成对抗网络的演化框架。在每次迭代期间,生成器经历不同的突变以产生多种后代。然后,给定当前学习到的判别器,我们评估由更新的后代产生样本的质量和多样性。最后,根据"适者生存"的原则,去除表现不佳的后代,保留剩余的表现良好的发生器并用于进一步对抗训练。基于的进化模型的生成对抗网络克服了个体对抗训练方法所存在的固有局限性,极大的稳定了生成对抗网络的训练过程病提升了生成效果。实验证明,所提出的E-GAN实现了令人信服的图像生成性能,并减少了现有GAN固有的训练问题。构建四元融合一体的人工智能系统最近自动机器学习得到了大家的广泛关注,并且有人说自动机器学习以后,就没有必要让人来设计神经网络了,听起来特别的震撼。当然也是恐慌,感觉即使没有相关的基础知识和对于问题的深入理解,只要有大型计算设备和相关的数据,我们都可以构建高效的人工智能系统。但目前对于一个具体的实际问题,我们还没有办法完全依靠自动机器学习来构建人工智能系统,对于问题本身、机器视觉、统计学习等相关方面的深入理解,是我们目前搭建高效人工智能系统的根本。另外,过去我们基本上是独立的研究Perceiving、Learning、Reasoning和Behaving这四个方面,包括如何考虑人工智能伦理道德的约束。未来,我们需要在伦理道德框架约束下研究人工智能的四个方面,需要有效的整合这四个方面。这样的综合模式(在伦理道德框架约束下的perceiving、learning、reasoning、behaving功能的综合体)能够帮助我们实现在特定环境下的高效的人机混合系统或者无人系统。