价值连城图灵奖得主Yann LeCun 杨立昆的采访给AI从业者的建议

Posted 2021-09-04 架构师易筋

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了价值连城图灵奖得主Yann LeCun 杨立昆的采访给AI从业者的建议相关的知识，希望对你有一定的参考价值。

嗨 Yann，长久以来您一直是深度学习的领导者谢谢你能过来和我一起来聊聊

谢谢你能邀请我过来

你已经在神经网络领域工作了很长时间了我特别想听听你的故事，关于你怎么开始从事人工智能怎么开始研究神经网络？—

我一直对于 “智慧”，或者说哪里产生了人类的智慧很感兴趣从小就对人类的演化很感兴趣

那时你应该在法国吧？

对，是的，当时在法国当时我在上中学我对科技，太空特别感兴趣我最喜欢的电影是： 2001太空漫游 (2001 Space Odyssey) 在剧里面，你可以看到智能机器，空间旅行，还有人类演化等等这类东西，这些都让我特别着迷包括智能机器的概念，我觉得真的特别吸引我在那之后我开始学习电子工程当我在上学的时候，在我读工程学院二年级的时候我无意间看到了一本书，其实是一本哲学方面的书是关于MIT计算语言学者Noam Chomsky 和一位心理认知科学家 Jean Piaget，来自瑞士儿童发展心理学家的辩论这是一场关于先天和后天的争论 Chomsky 认为语言有很多先天的结构但是Piaget认为这些很多事后天学习的在Piaget这边他援引了一个人的说法你知道，他们这两边的人都找了一堆人来为自己这边辩护在Piaget这边的是来自MIT的Seymour Papert 他一直在研究第一个可以运行的感知模型那是我还没有听过感知器，然后我就读了那篇文章文章中说这种感知模型是可以运转的，这让我感觉太神奇了所以之后我开始去几个大学的图书馆然后搜索任何我能找到的关于感知器的文章，然后发现大部分的文章是50年代的，而且到60年代就中断了找到一本由Seymour Papert一起合著的书 —

那是哪一年？ —

那一年是1980年差不多。 — 嗯，对 — 所以我和我的数学老师做了几个项目关于神经网络的但是我却找不到在这个领域工作可以聊天的人因为这个领域在那段时间已经消失了从1980年开始，没有人在这个领域工作

然后我做了一点探索写了一些不同种类的模拟软件，看了关于神经科学的书

当我完成工程学院的学习时，我学的是芯片设计我那时非常善于芯片设计，所以这对我来说是很不同的体验当我完成时，我真的想要从事这方面的研究在那时我已经知道了最重要的问题是你怎样训练多层的神经网络在60年代的论文中很清楚的表明那些重要的问题还没有被解决，也表明了他们的思想层次我已经读多了Fukushima的neocognitron论文是一种多层架构，与现在的很类似我们称之为卷积神经网络，但没有真正的反向传播学习算法在法国，我认识了一些人，他们来自一个小的独立俱乐部他们对于他们当时称之为自动机网络的很感兴趣他们给了我一些论文一些功能网络的论文，现在已经不流行了但是这是第一个有关于神经网络的记忆，而这份论文激起了一些研究团体重新进入神经网络的兴趣在80年代早期有大部分是物理学家和凝聚态物理学家还有一些心理学家，但对于工程师和电脑科学家还无法谈论神经网络他们也让我看另一个刚刚传播出来的论文作为预印本，标题是最佳知觉推论这是第一份玻尔兹曼机的论文，作者是Geoff Hinton 和Terry Sejnowski 它是讨论隐藏单元的也就是学习的一部分多层神经网络比仅有的分类器更有效所以我说我必须见到这些人[笑] 因为他们只对正确的问题感兴趣

在几年以后，在开始我的phd学习之后，我参加了在Le Juch的一个研讨会 Terry是这个研讨会中的一位演讲者我在那时遇见了他 —

那是80年代早期 —

是1985，1985年年初所以我在1985年，在法国Le Juch的研讨会遇到了 Terry Sejnowski 很在那里的很多人，有早期神经网络的创始人，跳槽来的和很多从事理论神经网络的人和相关领域的工作人员那是个很棒的研讨会我还遇到了一些来自贝尔实验室的人，他们最终雇佣了我但这是我完成phD之前几年的时候所以我告诉Terry Sejnowski 有关我从事的工作有关一些反向传播的版本这是正式反向传播论文提出之前 Terry那时正在做关于Net Talk的工作

这是在Rumelhart Hinton和Williams的关于反向传播论文发表之前但它是Geoff的朋友，这样的信息传播着所以他当时已经再尝试将这项工作用于Net Talk 但是他没有告诉我然后他回到了US 并告诉了Geoff在法国有一些孩子也正在做着相同的事情跟我们正在做的事情相同 [笑]几个月以后六月，在法国有另一个会议，Geoff是主演讲者

他讲的主题是玻尔兹曼机模型当然，他也正在进行反向传播论文

他讲完了主题之后在他周围有50个人想与他讲话而他对组织者讲的第一件事情是你知道这个年轻人Yann LeCun吗？因为他读过我正在进行的论文用法语写的它可以读懂法语，他也可以看那些数学他知道什么是反向传播，所以我们一起吃了午饭这就是我们怎么成为朋友的 —

了解 [笑]

那是因为很多团体正在独立改造或发明类似的反向传播对的，我们意识到整个链式法则的想法或者最佳化控制，人们称之为连接状态实际是反向传播发明的真正主旨这种最佳化控制的主旨要回到60年代早期这种观念，使用梯度下降，并且基本上使用在多个层次是反向传播真正的特点，它出现在了不同的时间不同的场合但是我认为 Rumelhart, Hinton, Williams的论文才是让它普及的 —

是的，我知道了然后几年之后，当您在贝尔实验室时在那里您发明了众多项目之一的LeNet，也是我们在课程中讨论的我记得之前，当我在贝尔实验室暑期实习的时候在那里我跟 Michael Kerns和其他一些人一起工作当时听说了您的有关工作所以请您告诉我一些关于你AT&T的LeNet的工作

好的，实际上我实际做的是关于卷积网络的工作，当我在博士后时，在多伦多大学，跟着Geoffery Hinton

我开始了我的第一项实验，我在那里写代码我做的第一项实验表明如果你有一个非常小的数据集我训练的数据集，几乎没有或者在当时有类似的东西所以我用鼠标画了一些字我有一台Amiga，一台私人电脑，那时当时最棒的电脑我画了一些字，然后使用它们我做了一些增强来扩充他们后来用它们来做性能测试我比较了全连接网络没有共用权重的局部连接网络然后是共享权重的网络那基本上是ConvNet的雏形而这对相对小的数据效果很好，可以显示你得到了最佳的效果，没有在传统架构下有过度训练

当我在1988年10月去贝尔实验室时我做的第一件事是放大网络因为在我去贝尔实验室之前几个月，我们有了更快的电脑那时我的老板 Larry Jackal，成为了部门领导他说我们应该在你来之前，先订一台电脑你想要什么样的电脑我说在多伦多，这里有Sun 4 如果我能有一台，是最好的了于是他们为我个人订了一台，在多伦多大学整个系只有一台，对吧？这里我可以自己用一台，对吗？所以Larry告诉我，贝尔实验室不是以省钱出名的 [笑]

那真的很棒他们已经在字元识别工作了一段时间了他们有巨大的数据集叫做USDS，包含了5000个训练样本 [笑]我马上设计了一个卷积网络然后在这个数据集上训练得到了非常好的结果，比其他方法结果都好他们曾经尝试过，其他人以前也尝试过我们知道我们已经有了非常棒的东西这是在我加入贝尔实验室三个月内发生的所以这是第一版本的卷积网络我们的卷积网络有跨步，但我们没有单独的降采样和池化层所以每个卷积实际上很直接这个的原因是我们负担不起在每一个区域都做卷积这包含了太多的计算所以第二个版本是有单独的卷积，池化层和降采样

我觉得这个才应该称为LeNet-1 所以我们在NIPS上发表了几篇论文很有意思的事情是，当我在NIPS上谈论这个论文时

当时Geoffrey Hinton就是听众之一，当我讲完回到座位上时我就坐在他旁边，他说：你的演讲说明了一点那就是，如果你做了所有明智的事情事情就会成功在那天之后不久这篇论文改写了历史，因为他被大量采纳这个想法被广泛使用在支票辨识上， —是的在AT&T内部有很大使用价值，当时对其他外面的地方影响还没有那么大我觉得理解这件事情的原因对我来说有一点困难，简单的原因可能是那时是在80年代晚期，当时还没有互联网我们有电邮，有FTP，但是却没有网络没有两个实验室用相同的软件和硬件平台有些人用Sun的工作站，有些人用其他机器有些人用个人电脑或者其他什么的那时还没有Python， Matlab 人们写自己的代码我花了一年半时间我和Leon Bottou，当他还是一个学生的时候我们一起合作，花了一年半时间基本上做了一个简单的神经网络模拟器

在那个时间因为没有用Python 你需要写你自己的解释器去控制他我们想要我们自己的Lisp解释器所以所有的网络模型都是用Lisp写的用数值电脑做后端和我们现在的很像，可以有很多链接的单元但是和现在我们熟悉的像Torch， PyTorch， TensorFlow这些东西不同

我们开发了一些应用我们和一群工程师合作

都是很聪明的人

其中有些人是理论物理学家，他们在贝尔实验室变成工程师

Chris Dodgers是其中一位，他后来

在微软研究院做出了很棒的成果还有Krieg Nolan 还有一些人，我们共同合作让这个技术变得实用。 —嗯所以我们一起开发了这个字母识别系统这个系统整合了卷积网络和类似我们现在说的CRF(Conditional Random Field)的技术用来解释一串字母而不是单个 —

是的那篇文章一部分在讲神经网络一部分在讲原子机械 —

是的，把他们合在一起是的，没错所以论文的前半部分是关于卷积神经网络的也是这个论文被最多引用的原因但是论文的后半部分，几乎没有人读那部分有关于序列，判别运算基本上是不使用正则化的结构预测所以事实上和CRF真的很像你知道，就是PTCRFS的那些年这是很成功的，除了

我们庆祝这套系统在主流银行部署的那一天

我们和我刚才提到的那个组一起做整个系统的工程部分另外一部分产品组，在另一个国家隶属于AT&T的子部门，叫NCR 所以 NCR就是National Cash Register公司他们建立大型的ATM机器大型的给银行读支票的系统所以他们就是我们的客户他们在使用我们的支票付款系统然后他们把他部署到了一个银行但是我不记得到底是哪家银行了他们也部署了ATM机器到法国银行这样机器就可以读你存款时的支票，我们就在一个豪华的餐厅庆祝部署成功这件事情就在当时公司宣布将AT&T拆散这是在1995年发生的 AT&T宣布他会分拆成三家公司 AT&T，Lucent Technologies，和NCR 所以NCR被分拆出去，Lucent Technologies也被分出去原来的工程团队在Lucent Technologies, 但是产品团队当然跟着NCR

令人悲伤的事情是AT&T的律师们用他们无限的智慧获得了专利，当时的卷积网络是有专利的但是庆幸的是现在已经取消了在2007年取消 [笑] 大概十年以前他们将专利给了NCR，但是在NCR没有人真的懂得什么是卷积网络所以这个专利到了一群不知道他的价值的人手上我们在不同的公司，所以我们不能开发这个技术因为我们和工程团队在不同的公司因为我们去了AT&T，而工程团队去了Lucent 产品团队去了NCR 所以有点令人悲伤，

—所以除了你的早期工作现在的神经网络非常热门，但是您一直持续坚持在神经网络领域即使在神经网络很低谷的时候那是一种什么样的感觉？ —

嗯，是的我坚持了一些，但在某些方面也没有坚持我总是相信最终那些技术会回归到人们的视线之内人们也会知道如何在实际中使用他们它会是很有用的我一直在脑子里这么想但是在1996年，当AT&T分拆的时候所有的在字母识别方面的工作成果基本上也拆散了，因为部分的群组被拆开了我被晋升为部门主管，我需要搞明白要做什么那是因特网刚刚开始的时候，也就是1995年我有一个想法，因特网兴起的一个大的结果是会把我们纸质材料上的知识带到数字世界中去所以我开始了一个项目，叫DjVu 这个项目主要是想要压缩扫描的文档这样一来他们就可以传播到全世界的各个地点这个项目在一段时间都很有趣，也有了一点成功尽管AT&T不知道这个可以用来做什么 —

是的，我记得这个这帮助了线上论文的传播 —

是的，确实是这样我们扫描了整个NIPS的文章，并把它们发布到网上 —我记得这件事 —为了展示这个技术如何使用我们可以压缩高清图片到几kB的大小

所以，卷积网络从您早期的工作开始，到现在几乎覆盖了计算机视觉的所有领域并且甚至开始去进入其他领域所以能告诉我你是如何看待整个过程的吗 —

[笑] 我可以告诉你为什么我早先就觉得这些会在未来发生首先，我一直相信这是会成功深度学习这个方向需要快速的计算机和大量的数据，并且我一直相信这会是以后会发生的事情当我在贝尔实验室的时候，我想这会是一个持续进展的过程，随着计算机越来越强大。我们在贝尔实验室的时候，甚至自己设计芯片运行卷积神经网络那时候实际上是在两个不同芯片上运行整个计算图使得卷积网络更加高效我当时想这应该会开始流行而且会逐渐被重视，然后能持续的发展下去但是实际上，因为大家对神经网络的兴趣在90年代中期几乎中断，这些并没有发生这段6，7年的时间，从大概1995到2002，是神经网络的低潮期当时，几乎没人对这个领域进行研究事实上，还是有一丢丢进展的在2000年初，有些微软的研究人员用卷积神经网络去做汉字的识别

嗯，就是这样的还有些其他的少量工作，像在法国有用这个技术做人脸识别还有一些其他地方的，但都是很小的工作我发现最近有一些团队提出一些和卷积神经网络很像的想法但是却没有发表出来，像一些对医学图像的分析那些人更多是在商业系统下进行所以那些人没有把成果公之于众我的意思是当我们有了第一个卷积神经网络的成果的时候他们并没有意识到，所以有一点大家在并行开发所以这些人在这段时间内都有差不多的想法

但是我非常惊讶于从ImageNet开始大家兴趣转变的速度之快那是在2012年，应该说是2012年底在ECCV有一个很有趣的事件在佛罗伦萨，有一个ImageNet的研讨会大家都知道Geoffrey Hinton, Alex Krizhevsky和Ilya Sutskever大幅度领先所以大家都在等着这个演讲计算机视觉领域的绝大部分人完全不知道卷积神经网络是什么东西事实上他们听我谈过这个东西我在2000年的CVPR上被邀请去做一个关于这个的演讲但是大部分人没有给予很大的关注资深的人员知道，但是这个领域的年轻人就不太知道这是什么了所以当Alex Krizhevsky做演讲的时候，他并没有解释什么是卷积网络因为他认为每个人都知道因为他从机器学习领域来，所以当他说这些东西是如何连接它是如何转换数据，并且得到了什么结果的时候它还是觉得每个人都知道这是什么大量的人都觉得很震惊并且你能看到当他在做演讲的时候，台下的人观念的转变特别是资深的研究人员。 —

所以你觉得那场研讨会对于计算机视觉领域是一个决定的时刻

是的当然是的这就是它如何发生的

现在，你依然在纽约大学做教授并且带领Facebook的人工智能研究院(FAIR) 我知道你一定对如何让学术研究和工业界合作有独特的方法你能跟我们分享下这方面的想法吗

是的，这其中最美妙的事情在于在我过去4年中领导Facebook人工智能研究院的过程中我有很大的自由度，去把他建构成我觉得合适的样子因为这是在Facebook内部第一个研究机构 Facebook是一个以工程为导向的公司到现在为止，他都在专注于生存和短期的事情 Facebook已经10岁了，也有了成功的上市并且正在思考未来的10年我的意思是Mark在思考未来10年中什么是最重要的事情公司的生死已经不是一个问题了所以这是一个转变发生的时候，一家大公司开始思考应该说当时也不是特别大 Facebook那时候有5000人，但是他们有这个资格去思考未来10年，思考什么对科技发展更加重要 Mark和他的团队觉得人工智能是很重要的一环，对于Facebook要 “链接所有人”的这个使命来说所有他们探索了很多方式，去赋能人工智能他们有一个小的内部工程团队对卷积网络很有经验也在人脸识别和其他方向得到了很好的结果，这激起了他们的兴趣所以他们探索着雇佣了一批年轻的研究人员，也收购了公司，或者类似的事情最终他们定下来要去雇佣在这个领域有资深经验的人并且建立一个研究机构

刚开始确实有一点文化冲击因为做研究的方法是与在公司中做工程完全不同的你会思考更长的时间和更广的空间研究人员倾向于保守地选择所要研究的方向我在开始就很明确的一点是，研究人员应该保持开放的态度研究人员不仅需要鼓励将成果发表更需要将发表作为一种要求并且需要能被类似我们衡量学术研究的评估方式去衡量研究成果所以Mark和公司的CTO， Mike Schiroepfer, 也是我现在的上司他们说，Facebook是一个开放的公司我们贡献了很多的开源产品。

你知道，Mike Schiroepfer，我们的CTO 就是来自开源社区他之前在Mozilla工作，也有很多人都从那边过来。所以这种开放是根植在公司的DNA中的，这也使得我对于建立这个开放的研究院感到自信另外事实上Facebook也不会像其他公司一样对专利太过痴迷和强迫这也使公司更利于和大学间进行合作可以安排一些人一边身在工业界工作，另一边也和学术界保持联系。 —你觉得这是很有价值的？是的，当然当你看我这4年的学术成果时大部分的是我在纽约大学的学生的成果嗯因为在Facebook，我要做很多实验室的管理，招聘，确定研究方向，指导他们，或者其他的一些事情但是我没有参与他们个人的研究项目，文章上也不会有我的名字你知道，我已经不在意文章是不是署我的名字。

所以你没有把这些琐事交给别人来干，而是自己亲自把这些活都干了。

的确，你不再想把你自己放在前台而是让自己隐藏在幕后你不想让你自己和实验室的人产生竞争

我想您可能被问过很多次但我还是希望可以让所有看到这段采访的人得到答案

你对那些想要进入人工智能这个领域的人有什么建议？

哈哈现在和我当时刚开始的时候已经大不相同了但是我觉得现在非常棒的事情是：人们一定程度上可以更容易的参与进来工具现在已经变得很容易使用，像TensorFlow，PyTorch 你可以用卧室的廉价电脑运行这些软件并且可以训练你的卷积神经网络，循环神经网络等等也有很多工具你可以通过线上材料学到很多，这不会太繁重所以你会看到高中学生现在开始学习这个这真的很棒，我觉得这确实在学生群体中引起了学习机器学习和人工智能的兴趣对年轻人来说这很令人兴奋，我觉得很棒所以我的建议是，如果你想进入这个领域，就要让自己变得有用比如，贡献自己的力量给开源社区或者去实现一些网上找不到的标准算法并把他们贡献出来让别人去使用拿一篇你觉得很重要的文章并去重新实现里面的算法，把他放到开源社区中去或者去贡献某些开源项目如果你写的东西很有趣，也有用，你就会被关注到也许你会在一个你心仪的公司有一个好的工作或者你会被你心水的PhD项目录取我觉得这是一个好的开始

嗯给开源社区做贡献是一个进入社区的好的方式，把学到的知识回馈给别人

嗯，是这样的

多谢，Yann，这真的很棒我已经认识你很多年了，但是当我听到你讲这些故事的细节时我依然觉得非常吸引人

是的，有很多像这样的故事，但当你回想时，你在当时不会意识到那一刻是多么的重要只有当经过10年，20年后，你才会意识到这些时刻有多么重要嗯，谢谢 —谢谢

参考

https://www.coursera.org/learn/convolutional-neural-networks/lecture/4PnfT/yann-lecun-interview

https://en.wikipedia.org/wiki/Turing_Award

以上是关于价值连城图灵奖得主Yann LeCun 杨立昆的采访给AI从业者的建议的主要内容，如果未能解决你的问题，请参考以下文章

图灵奖得主Yann LeCun最新访谈！

对话图灵奖得主CNN之父Yann LeCun：我在中国看到了AI研究热潮

图灵奖得主Yann LeCun：我的论文也被NeurIPS拒了

深度学习“三巨头”图灵奖得主 Yann LeCun：我没有天赋，所以才追随聪明人

价值连城 图灵奖得主Yann LeCun 杨立昆的采访 给AI从业者的建议

参考

价值连城图灵奖得主Yann LeCun 杨立昆的采访给AI从业者的建议