翻译:Google研究:回顾2020年并展望2021年 - Jeff Dean
Posted 架构师易筋
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了翻译:Google研究:回顾2020年并展望2021年 - Jeff Dean相关的知识,希望对你有一定的参考价值。
2021年1月12日,星期二
Google Research and Health高级研究员兼高级副总裁Jeff Dean代表整个Google Research社区发布
当我20年前加入Google时,我们只是在思考如何真正开始使用许多奇怪的有线计算机为网络上的信息提供高质量和全面的搜索服务的旅程。快进到今天,尽管我们面临着各种各样的技术挑战,但组织世界信息并使其普遍可访问和有用仍然是我们的首要目标。到2020年,随着COVID-19改变了世界,我们看到了研发技术可以帮助数十亿人更好地交流,了解世界并完成工作的方式。我为我们所取得的成就感到自豪,并对即将出现的新可能性感到兴奋。
Google Research 的目标是解决广泛的重要主题上的长期,雄心勃勃的问题-从预测COVID-19的普及到设计算法,从学习自动翻译越来越多的语言到减轻偏见ML模型。秉承我们对2019年,2018年的年度审查以及针对2017年和2016年某些工作的更狭focused的审查的精神,本篇文章涵盖了这一不寻常年份的Google Research重要摘要。如需更全面的了解,请参阅2020年我们的800多种研究出版物。这是一篇很长的文章,但分为许多不同的部分,您可以直接使用下表跳到这些部分。希望这里对每个人都有一些有趣的东西!
目录
·COVID-19与健康 ·AutoML
·医学诊断学ML ·了解ML算法和模型
·天气,环境与气候变化 ·算法基础和理论
·辅助功能 ·机器感知
·ML在其他领域的应用 ·机器人技术
·负责任的AI ·量子计算
·自然语言理解 ·支持开发人员和研究人员
· 语言翻译 ·打开数据集和数据集搜索
·机器学习算法 ·研究社区互动
·强化学习 ·展望2021年及以后
COVID-19与健康
由于COVID-19的影响给人们的生活造成了巨大损失,世界各地的研究人员和开发人员齐心协力,开发工具和技术,以帮助公共卫生官员和政策制定者理解和应对这种流行病。苹果和谷歌在2020年合作开发了Exposure Notifications System(ENS),这是一种支持蓝牙的隐私保护技术,如果有人暴露于对COVID-19测试呈阳性的人,则可以通知他们。ENS是对传统接触者追踪工作的补充,并已由公共卫生当局在50多个国家,州和地区进行了部署,以帮助遏制感染的传播。
在大流行初期,公共卫生官员表示他们需要更全面的数据来对抗病毒的迅速传播。我们的社区流动性报告提供了有关流动趋势的匿名见解,不仅帮助研究人员了解诸如在家中使用的指示和社会疏离等政策的影响,而且还进行了经济预测。
社区流动性报告:浏览并下载感兴趣区域的报告。
我们自己的研究人员还探索了使用这种匿名数据通过图神经网络而不是传统的基于时间序列的模型来预测COVID-19传播 。
尽管研究社区最初对这种疾病及其继发效应知之甚少,但我们每天都在学习更多。我们的COVID-19搜索趋势症状使研究人员能够探索时间或症状关联,例如失眠–有时是病毒症状的气味消失。为了进一步支持更广泛的研究社区,我们推出了Google Health Studies应用程序,以提供参与研究研究的公共方式。
我们的COVID-19搜索趋势正在帮助研究人员研究疾病传播与症状相关搜索之间的联系。
Google的团队正在为更广泛的科学界提供工具和资源,科学界正在努力解决该病毒对健康和经济的影响。
用于建模COVID-19 Spread的时空图。
准确的信息对于应对公共卫生威胁至关重要。我们与Google的许多产品团队合作,以通过支持事实检查以及YouTube的类似工作来改善Google新闻和搜索中有关COVID-19的信息质量。
我们帮助社区多种语言通过获得关键COVID-19信息平等获取赞助Nextstrain.org的每周情况报告的定位和发展协同翻译一个COVID-19的开源并行数据集无国界。
对复杂的全球事件进行建模特别具有挑战性,并且需要更全面的流行病学数据集,新颖的可解释模型的开发以及基于代理的模拟器来告知公众健康应对措施。机器学习技术还通过其他方式提供了帮助,从部署自然语言理解到帮助研究人员快速浏览COVID-19科学文献的山峦,应用匿名化技术保护隐私同时提供有用的数据集,以及探索公共卫生是否可以通过以下方式进行更快的筛查:贝叶斯分组测试减少了测试次数。
这些只是Google开展的许多工作中的一个示例,这些工作可以帮助用户和公共卫生当局应对COVID-19。有关更多信息,请参阅使用技术来帮助承担COVID-19。
用于医学诊断的机器学习研究
我们将继续努力,以帮助临床医生利用ML的力量为更多患者提供更好的护理。今年,我们已经描述了应用计算机视觉来帮助医生诊断和管理癌症方面的显着进展,包括帮助确保医生在结肠镜检查期间不会错过潜在的癌性息肉,并显示ML系统可以实现更高的准确性比病理学家对前列腺组织进行格里森(Gleason)分级的方法要好,这使放射科医生在检查X射线是否有乳腺癌迹象时,可以显着减少假阴性和假阳性结果。
为了确定前列腺癌的侵袭性,病理学家对活检进行了检查,并将其定为格里森等级。在已发表的研究中,我们的系统比未接受过前列腺癌专业培训的病理学家更高的准确度。深度学习系统的第一阶段将Gleason等级分配给活检的每个区域。在此活检中,绿色表示格里森模式3,黄色表示格里森模式4。
我们还一直在研究系统,以帮助识别皮肤疾病,帮助检测与年龄相关的黄斑变性(美国和英国的失明的主要原因,以及全球失明的第三大原因),侵入性诊断(例如,能够从视网膜图像中检测出贫血迹象)。
我们的研究探讨了深度学习模型如何从视网膜图像中量化血红蛋白水平(医生用来检测贫血的一种措施)。
今年还带来了令人兴奋的示范,展示了这些相同技术如何渗透到人类基因组中。Google的开放源代码工具DeepVariant使用卷积神经网络识别测序数据中的基因组变异,并于今年赢得了FDA挑战赛的4个类别中的3个最佳准确性。使用相同的工具,由达纳-法伯癌症研究所(Dana-Farber Cancer Institute)进行的一项研究将导致2367名癌症患者的导致前列腺癌和黑色素瘤的遗传变异的诊断产率提高了14%。
研究并不仅限于测量实验精度。最终,真正地帮助患者获得更好的护理需要了解ML工具将如何影响现实世界中的人们。今年,我们开始与Mayo Clinic合作开发一种机器学习系统,以协助放射治疗计划并更好地了解如何将该技术部署到临床实践中。通过与泰国合作伙伴的合作,我们已经将糖尿病眼疾筛查作为测试案例,来构建以人为中心的系统,并认识到多样性,公平性和包容性在构建更健康世界的工具中的基本作用。
天气,环境和气候变化
机器学习可以帮助我们更好地了解环境,并做出有用的预测,以帮助人们日常生活和灾难中。对于天气预报和降水,长期以来,诸如NOAA的HRRR之类的基于计算密集型物理模型一直占据上风。但是,我们已经能够证明,基于ML的预测系统可以更好的空间分辨率来预测当前的降水(“我的西雅图当地公园正在下雨吗?”而不仅仅是“西雅图的正在下雨吗?”)和最多可以产生八个小时的短期预测 比HRRR准确得多,并且可以更快地计算预测,但具有更高的时空分辨率。
可视化在大约一天的时间内所做的预测。左:在每小时的顶部进行的1小时HRRR预测,这是HRRR多长时间提供一次预测的限制。中心:基本事实,即我们试图预测的事实。右:我们的模型所做的预测。我们的预测是每2分钟(每15分钟在此处显示一次),大约是HRRR所获得的空间分辨率的10倍。注意,我们捕获了风暴的总体运动和总体形状。
我们还开发了一种称为HydroNets的改进技术,该技术使用神经网络网络对世界上实际的河流系统进行建模,以更准确地了解上游水位与下游淹没之间的相互作用,从而获得更准确的水位预测和洪水预报。使用这些技术,我们在印度和孟加拉国将洪水警报的范围扩大了20倍,从而在25万平方公里的范围内更好地保护了2亿多人。
HydroNets体系结构的插图。
更好地分析卫星图像数据还可以使Google用户更好地了解野火的影响和程度(野火今年在加利福尼亚和澳大利亚造成了毁灭性影响)。我们表明,即使以前的卫星图像数量有限,对卫星图像的自动分析也可以帮助快速评估自然灾害后的损失。它还可以通过帮助城市评估其当前的树冠覆盖范围以及应集中精力种植新树的地方来帮助城市植树工作。我们还展示了利用时间上下文的机器学习技术如何帮助改善生态和野生动植物监测。
基于这项工作,我们很高兴与NOAA合作,使用AI和ML来利用Google Cloud的基础设施扩大NOAA的环境监测,天气预报和气候研究。
可访问性
机器学习继续为改善可访问性提供了惊人的机会,因为它可以学习将一种感官输入转换为其他感官输入。例如,我们发布了Lookout,这是一个android应用程序,可以通过识别杂货店和家里的厨房橱柜中的包装食品来帮助视障用户。Lookout背后的机器学习系统证明,强大而紧凑的机器学习模型可以在电话上实时完成近200万种产品。
同样,使用手语进行交流的人发现很难使用视频会议系统,因为即使他们正在签名,基于音频的说话者检测系统也不会将他们检测为活跃的说话者。开发用于视频会议的实时,自动手语检测提供了一种实时手语检测模型,并演示了如何将其用于为视频会议系统提供一种机制,以将签名的人识别为活动发言人。
我们还为重要的家庭声音启用了有用的Android无障碍功能,例如语音访问和声音通知。
Live Caption已扩展为支持Pixel电话上的呼叫,并具有字幕电话和视频通话的功能。这来自实时中继研究项目,该项目可以使聋哑人和听力不佳的人在没有帮助的情况下拨打电话。
机器学习在其他领域的应用机器学习继续证明对帮助我们在许多科学领域取得进步至关重要。2020年,我们与HHMI Janelia Research Campus的FlyEM团队合作,发布了果蝇半脑连接组,脑连接的大型突触分辨率图,使用大规模机器学习模型重建了该模型,并将其应用于脑的高分辨率电子显微镜成像组织。该连接组信息将帮助神经科学家进行各种查询,帮助我们所有人更好地了解大脑的功能。请务必查看非常互动的3-D UI!
机器学习在系统生物学问题中的应用也在增加。我们的Google Accelerated Science团队与Calico的同事们一直在将机器学习应用于酵母,以更好地了解基因在整个系统中如何协同工作。我们还一直在探索如何使用基于模型的强化学习来设计生物序列例如具有医学或工业用途所需特性的DNA或蛋白质。基于模型的RL用于提高样品效率。在每轮实验中,都使用适合先前轮次功能测量结果的模拟器对策略进行离线培训。在设计DNA转录因子结合位点,设计抗菌蛋白以及基于蛋白质结构优化Ising模型的能量等各种任务上,我们发现基于模型的RL是现有方法的一种有吸引力的替代方法。
与X-Chem Pharmaceuticals和ZebiAI合作,我们还一直在开发ML技术,以通过计算对有希望的分子化合物进行“虚拟筛选”。该领域以前的工作倾向于集中在相对少量的相关化合物上,但是在这项工作中,我们正在尝试使用DNA编码的小分子文库,以便能够概括地发现大范围的“命中”。化学空间,从而减少了对缓慢的,基于物理的实验室工作的需要,以便从构想发展到可运行的制药。
我们还看到了将机器学习应用于核心计算机科学和计算机系统问题的成功,这一增长趋势正在催生像MLSys这样的全新会议。在C ++ Server工作负载的基于学习的内存分配中,基于神经网络的语言模型预测上下文相关的按分配站点对象的生存期信息,然后使用它来组织堆以减少碎片。仅使用大页面(对于TLB行为更佳),它最多可以减少78%的碎片。端到端的可转移Deep RL,用于图形优化描述了用于计算图优化的端到端可转移深度强化学习方法,该方法显示与TensorFlow默认优化相比,三个图优化任务的速度提高了33%-60%,收敛速度比以前的计算图优化方法快15倍。
如采用深度强化学习的芯片设计中所述,我们也一直在将强化学习应用于计算机芯片设计中的布局布线问题。这通常是非常耗时,费力的过程,并且是从芯片的想法到实际拥有完整设计和制造的芯片要花费这么长时间的主要原因。与以前的方法不同,我们的方法具有从过去的经验中学习并随着时间的推移而不断改进的能力。特别是,当我们训练更多的芯片块时,我们的方法变得更擅长为先前未见过的芯片块快速生成优化的布局。该系统能够生成通常优于人类芯片设计专家的布局,并且我们一直在使用该系统(在TPU上运行)为下一代TPU的主要部分进行布局和布局。门格尔 是我们为大规模分布式强化学习而构建的最新基础结构,可为诸如芯片设计之类的难于完成的RL任务提供令人鼓舞的性能。
负责AI
的谷歌AI原则指导我们的先进技术发展。我们将继续投资于负责任的AI研究和工具,更新我们在该领域推荐的技术实践,并就我们的实施进度共享定期更新-包括2020年的博客文章和报告。
为了帮助更好地理解语言模型的行为,我们开发了语言可解释性工具 (LIT),该工具包可提高语言模型的可解释性,从而能够交互式探索和分析其决策。我们开发了在预训练的语言模型中测量性别相关性的技术,以及可减少Google Translate中性别偏见的可扩展技术。我们使用内核技巧提出了一种简单的方法来估计训练数据示例对单个预测的影响。为了帮助非专业人员解释机器学习结果,我们扩展了2019年引入的TCAV技术,现在提供了一套完整而足够的概念。通过最初的TCAV工作,我们可以说“毛皮”和“长耳朵”是“兔子”预测的重要概念。通过这项工作,我们还可以说这两个概念足以完全解释该预测。您不需要任何其他概念。概念瓶颈模型是一种通过训练模型使模型更易于解释的技术,使其中一层与预先定义的专家概念(例如,“骨刺存在”或“机翼颜色”,如下图所示)对齐,然后再进行建模。一项任务的最终预测,这样我们不仅可以解释,还可以即时打开/关闭这些概念。
如概念瓶颈模型中所述,使预测与预先确定的概念保持一致可以使模型更易于解释。
与许多其他机构合作,我们还研究了语言模型的记忆效应,表明训练数据提取攻击是对最新的大型语言模型的现实威胁。这一发现以及嵌入模型可能泄漏信息的结果可能会对隐私产生重大影响(尤其是针对在私有数据上训练的模型)。在《芝麻街小偷:基于BERT的API的模型提取》中,我们证明了仅对语言模型进行API访问的攻击者可以创建其输出与原始模型具有非常高相关性的模型,即使对原始模型的API查询相对较少。随后的工作表明,攻击者可以以任意精度提取较小的模型。关于AI安全原则,我们证明了尽管尝试使用自适应攻击进行评估,但仍可以绕开针对对抗性示例的13项公开防御。我们的工作重点是进行自适应攻击所需的方法和方法,从而使社区在建立更强大的模型方面能取得进一步的进展。
检查机器学习系统本身的检查方式也是一个重要的探索领域。通过与AI合作伙伴关系的合作,我们定义了一个框架,该框架用于借鉴在航空航天,医疗设备和金融行业的经验教训及其最佳实践,来审核软件产品设置中机器学习的使用情况。通过与多伦多大学和麻省理工学院的合作,我们发现了审核面部识别系统性能时可能出现的一些道德问题。在与华盛顿大学的合作中,我们确定了选择子集时与多样性和包容性相关的一些重要考虑因素用于评估算法公平性。为使负责任的AI服务于下一个十亿用户而迈出的第一步,并帮助理解公平概念在世界各地是否一致,我们分析并创建了印度算法公平的框架,包括数据集,公平优化,基础设施和生态系统
与多伦多大学于2019年合作推出 的模型卡工作的影响力一直在增长。确实,许多著名的模型(例如OpenAI的GPT-2和GPT-3),许多Google的MediaPipe模型和各种Google Cloud API都采用了模型卡,以便为机器学习模型的用户提供有关该模型的开发和开发的更多信息。在不同条件下观察到的模型行为。为了使其他人更容易将其用于自己的机器学习模型,我们还引入了模型卡工具包简化模型透明度报告。为了增加ML开发实践的透明度,我们展示了整个最佳实践在整个数据集开发生命周期中的适用性,包括数据需求规范和数据验收测试。
我们与美国国家科学基金会(NSF)合作,宣布并帮助建立了国家AI研究院进行人与AI交互与协作的研究。我们还发布了MinDiff框架,这是TF模型补救库中提供的一种新的正则化技术,可以有效地,有效地缓解训练ML模型时的不公平偏差,同时还提供了ML公平性健身房,以构建简单的模拟来探索部署机器的潜在长期影响社会环境中基于学习的决策系统。
除了开发公平的框架外,我们还开发了识别和改善推荐系统体验的健康和质量的方法,包括使用强化学习来引入更安全的轨迹。我们还继续致力于提高机器学习系统的可靠性,我们已经看到诸如生成对抗性示例之类的方法可以提高鲁棒性,而鲁棒性方法可以提高公平性。
差异隐私是正式量化隐私保护的一种方式,并且需要重新思考最基本的算法,以使其不会泄漏任何特定个人的信息的方式进行操作。尤其是,差异性隐私可以帮助解决上面提到的那种记忆效应和信息泄漏。2020年出现了一些令人振奋的发展,从计算私人的更有效的方法经验风险极小,以私人聚类方法紧逼近担保和私人素描算法。我们还开源了位于我们内部工具核心的差异隐私库,要格外小心以防止由实数浮点表示引起的泄漏。这些工具与我们用来生成差异化私人COVID-19流动性报告的工具完全相同,这些报告已成为研究人员和政策制定者宝贵的匿名数据来源。
为了帮助开发人员评估其分类模型的隐私属性,我们在Tensorflow中发布了ML隐私测试库。我们希望该库将成为强大的隐私测试套件的起点,该套件可以被世界各地的任何机器学习开发人员使用。
对CIFAR10模型的成员推理攻击。x轴是模型的测试准确性,而y轴是漏洞评分(越低,意味着越私密)。在测试准确性保持不变的情况下,漏洞变得越来越严重-更好的归纳可以防止隐私泄露。
除了推动开发私有算法的最先进技术外,我还为我们在将隐私编织到产品结构中所取得的进展感到兴奋。最好的例子之一是Chrome的Privacy Sandbox,它改变了广告生态系统的基础,并有助于系统地保护个人的隐私。作为该项目的一部分,我们提出并评估了许多不同的API,包括针对基于兴趣的目标群体的联合学习(FLoC),以及用于差异化私有衡量的汇总API 。
联邦学习 于2017年启动,现已成为一个完整的研究领域,仅2020年就出版了3000多本有关联邦学习的出版物。我们的跨机构的联合学习的进步和开放问题发表在2019年的调查论文已被引用367次,在过去一年,更新版本将很快被公布在基础和趋势机器学习系列。7月,我们举办了联合学习和分析研讨会,并公开了所有研究报告和TensorFlow联合教程。
联邦学习系统中经过FL训练的模型和各种参与者的生命周期。
我们将继续推动联邦学习的发展,包括新的联邦优化算法的开发,包括自适应学习算法,后验平均算法以及在联邦环境中模仿集中式算法的技术,互补密码协议的实质性改进等等。我们宣布并部署了联合分析,从而可以对本地存储在用户设备上的原始数据进行数据科学分析。联合学习在Google产品中的新用途包括Gboard中的上下文表情符号建议,以及通过Google Health Studies开创隐私保护医学研究的先河。此外,在通过随机签入进行的隐私放大中,我们介绍了第一个用于联合学习的隐私会计机制。
用户的安全性也是我们相当感兴趣的领域。2020年,我们继续部署新的基于ML的文档扫描器,以提供针对恶意文档的保护,从而进一步提高了对Gmail用户的保护,每天将恶意Office文档的检测率提高了10%。由于该工具具有通用性,因此它在阻止某些对抗性恶意软件活动(阻止其他检测机制)方面非常有效,在某些情况下将我们的检测率提高了150%。
在帐户保护方面,我们发布了一个完全开放源代码的安全密钥固件,以帮助提高两因素身份验证空间中的最新技术水平,并将重点始终放在安全密钥上,这是防止帐户受到网络钓鱼攻击的最佳方法。
对自然语言的理解
今年,我们看到了对语言的更好理解,这一领域取得了长足的进步。Google和其他地方在此领域的许多工作现在都依赖于Transformers,这是最初针对语言问题开发的一种特殊的神经网络模型样式(但越来越多的证据表明它们也可用于图像,视频,语音,蛋白质折叠,以及其他各种各样的域)。
对话系统中的一个令人兴奋的方面是,对话系统可以与用户就感兴趣的事物进行聊天,通常包括多次交互。尽管迄今为止在该领域的成功工作涉及创建专门针对特定主题(例如Duplex)的系统,但是这些系统无法进行一般性对话。为了实现创建具有更多开放式对话功能的系统的总体研究目标,在2020年,我们描述了Meena,这是一个学识渊博的对话代理,可以志趣相投。Meena在称为SSA的对话系统指标上获得了高分,该指标衡量了响应的敏感性和特异性。我们已经看到,随着我们扩大Meena的模型尺寸,它能够实现较低的困惑度,并且如本文认为,较低的困惑度与改进的SSA密切相关。
生成语言模型和对话系统的一个众所周知的问题是,在讨论事实数据时,模型的能力可能不足以记住某个主题的每个特定细节,因此它们生成的语言似乎是合理的,但却是不正确的。(这不是机器特有的,人们也可以犯这些错误。)为了在对话系统中解决此问题,我们正在探索通过允许对话代理访问外部信息源(例如大量文档或文档库)来增强对话代理的方法。搜索引擎API),并开发学习技术以将其用作其他资源,以生成与检索到的文本一致的语言。该领域的工作包括将检索集成到语言表示模型中(要使其正常工作,关键的基础技术是诸如ScaNN之类的东西,这是一种有效的矢量相似度搜索,可以有效地将所需信息与文本语料库中的信息进行匹配)。一旦找到合适的内容,就可以使用诸如使用神经网络在表中找到答案 并从临时文档中提取结构化数据之类的方法来更好地理解。我们在PEGASUS(一种用于抽象文本摘要的最新模型)上的工作还可以帮助从任何文本中创建自动摘要,这是在对话,检索系统和许多其他地方有用的通用技术。
NLP模型的效率也一直是我们2020年工作的重点。转移学习和多任务学习等技术可以极大地帮助使通用NLP模型适用于具有少量计算量的新任务。在这方面的工作包括在T5中进行转移学习探索,模型的稀疏激活(如下面提到的GShard工作中所述)以及使用ELECTRA进行更有效的模型预训练。几个工作线程还希望在基本的Transformer体系结构上进行改进,包括Reformer,它使用局部敏感的哈希和可逆计算来更有效地支持更大的关注窗口,Performers,它使用一种线性而不是二次缩放的注意力方法(并讨论了在蛋白质建模中的用法),以及ETC和BigBird,它们利用全局和稀疏的随机连接来对较大的结构化序列进行线性缩放。我们还探索了用于创建非常轻巧的NLP模型的技术,该模型比较大的BERT模型小100倍,但在某些任务上的性能几乎相同,因此非常适合于设备上的NLP。在编码,标记和实现中,我们还探索了使用编辑操作而不是完全通用的文本生成的生成文本模型的新方法,该方法在生成的计算要求,对生成的文本的更多控制以及需要更少的训练数据方面具有优势。
语言翻译
有效的语言翻译可以使我们所有人(尽管使用不同的语言)进行交流,从而使世界更紧密地联系在一起。迄今为止,全球已有超过10亿人使用Google翻译,并且去年我们增加了对五种新语言(Kinyarwanda,Odia,Tatar,土库曼和维吾尔语的支持,共有7500万人使用这种语言)的支持。翻译质量持续提高,显示平均+5 BLEU从2019年5月到2020年5月,通过多种技术获得点数增长,例如改进的模型架构和培训,更好地处理数据集中的噪声,多语言传输和多任务学习以及更好地使用单语数据来改善资源少的语言(那些在网络上没有太多书面公共内容的语言),直接符合我们改善机器学习系统的机器学习公平性以使尽可能多的人受益的目标。
我们坚信,继续扩展多语言翻译模型将带来进一步的质量改进,尤其是对全球数十亿使用低资源语言的用户而言。Google研究人员在GShard:通过条件计算和自动分片来缩放巨型模型中显示,训练稀疏激活的多达6,000亿个参数的多语言翻译模型,可以通过100种语言的BLEU分数提高来衡量100种语言的翻译质量的重大改善。每种语言都有一个单独的400M参数单语基线模型。该工作突出了三个趋势,如本文中的图6所示,转载如下(有关完整讨论,请参见该文件):
通过多语言培训,BLEU分数对所有语言的提高都很高,但对于资源匮乏的语言(图表的右手边比左手边的左手边更高),其语言甚至更高(他们的说话者代表了世界上一些最边缘化社区中的数十亿人)。图中的每个矩形代表使用1B扬声器的语言。
模型越大,越深,BLEU分数在所有语言中的提高幅度就越大(界线很少越过)。
大型稀疏模型还显示,与训练大型密集模型相比,模型训练的计算效率提高了约10倍至100倍,而同时匹配或大大超过了大型密集模型的BLEU得分(计算效率在本文中进行了讨论)。
GShard:使用条件计算和自动分片来缩放巨型模型中描述的大型稀疏激活的语言模型在100种语言中的翻译质量显着提高的插图。
我们正在积极努力,将GShard研究工作中展示的优势带给Google Translate,并训练涵盖1000种语言(包括Dhivehi和Sudanese阿拉伯语)的单一模型(同时分享一些在解决过程中需要解决的挑战)。
我们还开发了可为BERT模型创建与语言无关的句子表示的技术,可帮助开发更好的翻译模型。为了更有效地评估翻译质量,我们引入了BLEURT,这是一种用于评估诸如翻译之类的任务的语言生成的新指标,它不仅考虑单词与实际数据的重叠量,而且还考虑了生成的文本的语义,如下表所示。
机器学习算法
我们将继续开发新的机器学习算法和培训方法,以使系统能够从不受监管的数据中更快地学习。通过在神经网络训练期间重放中间结果,我们发现我们可以在ML加速器上填充空闲时间,因此可以更快地训练神经网络。通过在训练过程中动态改变神经元的连通性,与静态连接的神经网络相比,我们可以找到更好的解决方案。我们还开发了SimCLR,这是一种新的自我监督和半监督学习技术,可同时使同一图像的不同变换视图之间的一致性最大化,并使不同图像的变换视图之间的一致性最小。这种方法大大改善了最佳的自我监督学习技术。
使用不同的自我监督方法(在ImageNet上进行过预习)学习的表示形式上训练的ImageNet top-1线性分类器的准确性。灰色十字表示受监管的ResNet-50。
我们还将对比学习的概念扩展到监督体制,从而产生了损失函数,该函数大大改善了监督分类问题的交叉熵。
强化学习
强化学习(RL)是我们从有限的经验中学习做出长期决策的重要方面,一直是我们关注的重点领域。RL中的一个重要挑战是学习从很少的数据点做出决策,并且我们已经通过从固定数据集中学习,向其他代理学习以及改进探索来提高RL算法的效率。
今年的主要重点是离线RL,它仅依赖于固定的,先前收集的数据集(例如,来自先前的实验或人类演示),从而将RL扩展到了无法即时收集训练数据的应用程序中。我们已经为RL引入了对偶方法,开发了改进的算法以用于非策略评估,估计置信 区间和离线策略优化。此外,我们正在与更广泛的社区合作,通过发布开源基准数据集和Atari的DQN数据集来解决这些问题。
另一项研究通过学徒制学习向其他特工学习,从而提高了样本效率。我们开发了向有经验的特工学习,与其他特工的分布匹配或从对抗性示例中学习的方法。为了改进RL中的探索,我们探索了基于奖励的探索方法,其中包括能够模仿在对环境有先验知识的代理商中产生的结构化探索的模仿技术。
我们还在强化学习的数学理论方面取得了重大进展。我们的主要研究领域之一是将强化学习作为一种优化过程进行研究。我们发现了与Frank-Wolfe算法,动量方法,KL散度正则化,算子理论和收敛性分析的联系;这些见解中的一些导致了一种算法,该算法在具有挑战性的RL基准测试中获得了最先进的性能,并发现多项式传递函数避免在RL和监督学习中与softmax相关的收敛问题。我们在安全强化学习这一主题上取得了一些令人振奋的进展,该学习旨在在尊重重要实验约束的同时发现最佳控制规则。这包括安全策略优化的框架。我们研究了有效的基于RL的算法来解决一类称为均值场博弈的问题,该博弈模型对从移动网络到电网等具有大量决策者的系统进行建模。
我们在通用化新任务和环境方面取得了突破,这是将RL扩展到复杂的实际问题的一项重要挑战。2020年的重点领域是基于人群的学习方法,其中另一个RL或进化代理对RL代理群体进行了培训,以创建紧急情况复杂性的课程表,并发现新的最新RL算法。学会估计训练集中数据点的重要性以及有选择地注意的视觉输入部分会导致技能娴熟的RL代理人。
我们的方法概述以及AttentionAgent中的数据处理流程说明。顶部:输入转换—滑动窗口将输入图像分割成较小的色块,然后对其进行“展平”以备将来处理。中:补丁程序选择—修改后的自我关注模块在补丁程序之间保持投票,以生成补丁程序重要性向量。下:动作生成— AttentionAgent选择最重要的补丁,提取相应的功能并根据这些功能做出决策。
此外,我们通过展示学习预测行为模型可以加速RL学习,使分散团队中的分散式多代理任务能够在不同团队中进行学习以及学习长期行为模型,在基于模型的RL方面取得了进展。观察到技能会带来可预见的环境变化,我们发现技能无需监督。更好的表示形式可以稳定RL学习,而分层的潜在空间和价值提升路径则可以提供更好的性能。
我们共享了用于扩展RL和生产RL的开源工具。为了扩大用户解决的范围和问题,我们引入了SEED(一个大规模并行RL代理),发布了一个用于衡量RL算法可靠性的库,并发布了一个新版本的TF-Agent,其中包括分布式RL,TPU支持和全套的强盗算法。此外,我们对RL算法进行了大量的实证研究,以改善超参数选择和算法设计。
最后,我们与Loon合作,培训并部署了RL,以更有效地控制平流层气球,从而改善功率消耗和导航能力。
AutoML
使用学习算法来开发新的机器学习技术和解决方案或元学习,是一个非常活跃和令人兴奋的研究领域。在该领域以前的许多工作中,我们都创建了搜索空间,以寻找如何找到以有趣的方式将复杂的手工设计组件组合在一起的方法。在AutoML-Zero中:不断学习的代码,我们采用了另一种方法,即为进化算法提供一个由非常原始的运算(例如加法,减法,变量赋值和矩阵乘法)组成的搜索空间,以查看是否有可能从头开始发展现代ML算法。在这个空间中,有用的学习算法的稀缺性令人难以置信,因此值得注意的是,该系统能够逐步发展出越来越复杂的ML算法。如下图所示,该系统重塑了过去30年中许多最重要的ML发现,例如线性模型,梯度下降,校正的线性单位,有效的学习率设置和权重初始化以及梯度归一化。
我们还使用元学习来发现用于静止图像和视频中物体检测的各种新型高效架构。去年针对高效图像分类体系结构的EfficientNet的工作表明,图像分类显着提高了准确性,并降低了计算成本。在今年的后续工作中,EfficientDet:迈向可扩展和高效的对象检测是在EfficientNet工作的基础上构建的,用于导出用于对象检测和定位的新型高效体系结构,在最高绝对精度以及计算成本的降低方面均显示出显着改进比以前的方法高13-42倍,以达到给定的精度水平。
EfficientDet在相同设置下,在COCO测试设备上达到了最新的52.2 mAP,比现有技术水平(未显示,因为它处于3045B FLOPs)高了1.5个点。在相同的精度约束下,EfficientDet模型比以前的探测器小4到9倍,使用的计算少13到42倍。
我们在SpineNet上的工作描述了一种元学习的架构,该架构可以更有效地保留空间信息,从而可以以更高的分辨率进行检测。我们还专注于学习针对各种视频分类问题的有效架构。AssembleNet:在视频体系结构中搜索多流神经连接;AssembleNet ++:通过Attention Connections组装模态表示;以及AttentionNAS:用于视频分类的时空Attention Cell搜索演示了如何使用进化算法来创建新颖的最新视频处理机器学习架构。
此方法也可以用于开发有效的模型架构以进行时间序列预测。《使用AutoML进行时间序列预测》描述了一种系统,该系统通过在涉及许多有趣种类的低级构造块的搜索空间上进行自动搜索来发现新的预测模型,并且在Kaggle M5预测竞赛中通过生成算法和验证了其有效性。该系统在5558名参与者中排名第138(排名前2.5%)。尽管许多竞争性的预测模型都需要数月的人工创建,但我们的AutoML解决方案却能在很短的时间内找到该模型,而计算成本却适中(500个CPU,可使用2个小时),而无需人工干预。
更好地理解
机器学习算法和模型对于设计和训练更有效的模型,以及了解模型何时可能失败,更深入地了解机器学习算法和模型至关重要。去年,我们集中讨论了有关表示能力,优化,模型概括和标签噪声等基本问题。如本文前面所述,Transformer网络对建模语言,语音和视觉问题产生了巨大影响,但是这些模型代表的功能类别是什么?最近,我们证明了变压器是序列到序列函数的通用逼近器。此外,稀疏变压器仍然是通用逼近器即使它们仅使用令牌之间的线性数量的交互也是如此。我们一直在开发基于分层自适应学习率的新优化技术,以提高变压器的收敛速度,例如,大批量深度学习优化(LAMB):在76分钟内训练BERT。
随着神经网络变得越来越广泛和深入,它们通常训练得更快并且泛化得更好。这是深度学习的一个核心奥秘,因为经典学习理论表明大型网络应该过度拟合。我们正在努力了解这种过度参数化状态下的神经网络。在无限宽度的限制中,神经网络采用令人惊讶的简单形式,并由神经网络高斯过程(NNGP)或神经正切核(NTK)进行描述。我们从理论上和实验上研究了这一现象,并发布了神经切线,这是一个用JAX编写的开源软件库,允许研究人员构建和训练无限宽的神经网络。
随着有限宽度网络的变大,它们还会显示出奇特的双下降现象-随着宽度的增加,它们的泛化程度会更好,然后变得更差,然后又变得更好。我们已经表明,这种现象可以通过新颖的偏差-方差分解来解释,并且进一步地,它有时可以表现为三次下降。
最后,在实际问题中,经常需要处理明显的标签噪音。例如,在大规模学习场景中,弱标签数据可在大量标签噪声的情况下获得。我们已经开发出新技术,可以从严重的标签噪音中提取出有效的监督信息,从而获得最先进的结果。我们进一步分析了使用随机标签训练神经网络的效果,并表明它导致网络参数和输入数据之间的对齐,与从头开始初始化相比,可以更快地进行下游训练。我们还探讨了诸如标签平滑还是渐变剪切之类的问题 可以减轻标签噪音,从而为开发具有嘈杂标签的强大培训技术带来新见解。
算法基础和理论
2020年对于我们在算法基础和理论方面的工作来说是富有成果的一年,有几篇有影响力的研究出版物和令人瞩目的成果。在优化方面,我们关于边缘加权在线二分匹配的论文开发了一种在线竞争算法的新技术,并解决了具有三十年历史的边缘加权变量的开放性问题,并将其应用于有效的在线广告分配中。在进行在线分配工作的同时,我们开发了双镜面下降技术,该技术可推广到具有额外多样性和公平性的各种模型约束条件,并发表了一系列有关在线优化的论文,其中包括在线调度,在线学习和在线线性优化中的ML建议。另一项研究结果使密集图上的经典二分匹配获得了50年来的首次改进。最终,另一篇论文解决了一个长期存在的关于在线追踪凸体的开放性问题-使用The Book中的算法,同样如此。
我们还继续在可伸缩图挖掘和基于图的学习中开展工作,并在NeurIPS’20的规模研讨会上主持了图挖掘与学习,其中涵盖了可伸缩图算法的工作,包括图聚类,图嵌入,因果推论和图神经网络。 。作为研讨会的一部分,我们展示了如何通过使用类似于BigTable的分布式哈希表来增强标准同步计算框架(如MapReduce),从而在理论上和实践上更快地解决一些基本图形问题。我们广泛的实证研究证实了AMPC模型的实际相关性受我们在大规模并行算法中使用分布式哈希表进行分层聚类和连接组件的启发,我们的理论结果表明如何在恒定的分布式回合中解决许多此类问题,大大改善了我们以前的结果。我们还实现了计算PageRank和随机游走的指数级加速。在基于图的学习方面,我们介绍了Grale,这是我们设计用于机器学习的图的框架。此外,我们介绍了我们在更具可扩展性的图神经网络模型上的工作,其中我们证明了可以使用PageRank大大加快GNN的推理速度。
在市场的算法,在计算机科学和经济学的交叉区域,我们继续设计改进的在线市场,比如我们的研究测量广告拍卖的激励性,双边市场,并在广告选择优化顺序统计。在重复拍卖领域,我们开发了一些框架,使动态机制健壮起来,以应对当前市场和/或未来市场缺乏预测或估计误差的情况,从而产生可证明的紧密低遗憾的动态机制。后来,我们描述了何时可以通过基于几何的标准来实现渐近最优目标。我们也比较了实践中使用的一系列预算管理策略的均衡结果,显示了它们对收入与购买者效用之间权衡的影响,并阐明了其激励属性。此外,我们继续研究最佳拍卖参数,并解决了批次学习的复杂性和收益损失。我们设计了最佳遗憾,并研究了上下文拍卖定价的组合优化,并开发了一种新的拍卖主动学习框架,并改进了价格拍卖的近似性。最后,出于激励在广告拍卖中的重要性的启发,并希望帮助广告商研究激励在拍卖中的影响,我们引入了一种数据驱动的指标来量化某种机制偏离激励兼容性的程度。
机器感知感知
我们周围的世界-在视觉,听觉和多模式输入上进行理解,建模和采取行动-仍然是一个研究领域,具有极大的潜力,可以有益于我们的日常生活。
2020年,深度学习推动了新方法的发展,这些方法将3D计算机视觉和计算机图形更加紧密地结合在一起。CvxNet,用于3D形状的深层隐式函数,神经体素渲染和CoReNet就是该方向的一些示例。此外,我们关于将场景表示为神经辐射场的研究(又名NeRF,另请参见此博客文章),是Google Research的学术合作如何促进神经体积渲染领域快速发展的一个很好的例子。
与加州大学伯克利分校(UC Berkeley)合作, 在“学习城市分解与照明”中,我们提出了一个基于学习的框架,用于将室外场景分解为随时间变化的照明和永久性场景因素。这样就可以更改任何街景视图全景的灯光效果和场景几何形状,甚至可以将其变成全天延时拍摄的视频。
我们在生成人形和关节姿势模型方面的工作在完全可训练的模块化深度学习框架内引入了统计,关节式3D人形建模管道。此类模型可以从一张照片中对人进行3D人体姿势和形状重构,以更好地了解场景。
GHUM和GHUML中的端到端统计3D关节式人形模型构建概述:生成式3D人形和关节式姿势模型。
到2020年,使用神经网络进行媒体压缩的领域不断扩大,不仅在学习的图像压缩方面,而且在视频压缩,体积压缩的深层方法以及深不可知的图像水印方面都取得了不错的成绩。
变形不可知深水印的编码图像和覆盖图像样本。第一行:没有嵌入消息的封面图像。第二行:来自HiDDeN组合失真模型的编码图像。第三行:来自我们模型的编码图像。第四行: HiDDeN组合模型的编码图像和封面图像的归一化差异。第五行:模型的归一化差异
感知研究中的其他重要主题包括:
更好地利用数据(例如,对有噪声的学生进行自我培训,从模拟数据中学习,从有噪声的标签中学习,对比学习)
跨模式推理(例如,利用跨模式监督,视听语音增强,语言基础,具有本地化叙事的开放图像(V6)更新-连接视觉和语言的多模式注释)
开发有效感知的方法,尤其是在边缘设备上(例如,快速稀疏卷积,用于模型压缩的结构化多哈希)
提高表示和推理对象和场景的能力(例如,检测3D对象和预测3D形状,从单个RGB图像重建3D场景,利用时间上下文进行对象检测,学习查看透明对象并根据立体估计它们的姿势)
通过AI实现人类创造力(例如,从网页自动创建视频,智能视频重新构图,使用GAN创建奇幻生物,为肖像照像)
通过解决方案和数据集的开源采购与更广泛的研究社区进行互动是推进感知研究的另一个重要方面。2020年,我们在MediaPipe中开源了多种新的感知推理功能和解决方案,例如设备上的面部,手和姿势预测,实时身体姿势跟踪,实时虹膜跟踪和深度估计以及实时3D对象检测。
通过基于ML的解决方案,我们继续在改善体验和促进对移动设备的帮助方面取得了长足进步。我们在设备上运行复杂的自然语言处理的能力不断增强,从而实现了更自然的对话功能。在2020年,我们扩大了呼叫屏幕并启动了Hold for Me,以使用户节省执行平凡任务时的时间,并且还启动了Recorder应用程序的基于语言的操作和语言可导航性,以提高工作效率。
我们已经使用Google的Duplex技术拨打电话给企业,并确认临时关闭之类的内容。这使我们能够在全球范围内对业务信息进行300万次更新,而这些信息在“地图和搜索”中的浏览次数已超过200亿次。我们还使用文本到语音技术,通过使Google Assistant能够支持42种语言的大声朗读功能来更轻松地访问网页。
我们还继续对成像应用进行有意义的改进。我们通过创新的控件和新的方式在Google相册中重新照明,编辑,增强和重现它们,从而更轻松地捕捉Pixel上的珍贵时刻。对于Pixel相机,从Pixel 4和4a开始,我们添加了Live HDR +,它使用机器学习在取景器中实时估算HDR +连拍摄影的动感,平衡曝光和外观。我们还创建了双重曝光控件,该控件允许独立调整场景中阴影和高光的亮度-驻留在取景器中。
最近,我们推出了肖像光,这是Pixel相机和Google相册应用程序的一项新的后期捕获功能,为肖像添加了模拟的定向光源。此功能再次由机器学习提供支持,已经在70位不同的人上进行了培训,并在我们非常酷的331-LED Light Stage计算照明系统中一次拍摄了一个灯。
在过去的一年中,Google研究人员很高兴为使用Google产品的许多新(及时)方式做出了贡献。这里有一些例子
- 通过更轻松地获得作业帮助或通过增强现实探索3D概念来增强学习
- 通过浏览器内部背景模糊改善虚拟会议,并在Google Meet中替换。
- 提供了一种新的方法来虚拟在家中试用产品。
- 通过视频中的关键时刻帮助您更快地找到最相关的内容。
- 通过哼唱,帮助您找到卡在您脑海中的音乐。
- 帮助YouTube识别可能有害的内容,以供人工审核。
- 通过自动增强声音并减少背景噪音,帮助YouTube创作者制作出更好的视频。
机器人技术
在机器人技术研究领域,我们已经利用上一篇文章中介绍的许多RL技术,以越来越少的数据来学习越来越复杂,安全和健壮的机器人行为,从而取得了长足的进步。
运输网络是一种学习如何将机器人任务表示为空间位移的新颖方法。与环境中的绝对位置相反,表示对象和机器人末端执行器之间的关系使学习工作区的鲁棒转换非常有效。
在“游戏中的地面语言”中,我们演示了如何教机器人遵循自然语言指令(多种语言!)。这需要一种可扩展的方法来收集自然语言指令和机器人行为的配对数据。一个关键的见解是,这可以通过要求机器人操作员简单地玩机器人来完成,并在事后标记将导致机器人完成相同任务的指令。
我们还探索了完全放弃机器人(通过让人类使用配备摄像头的抓握杆)来实现更具可伸缩性的数据收集,以及如何在机器人任务之间有效地传递视觉表示。
我们研究了如何通过从自然界中汲取灵感,使用进化的元学习策略,人类演示以及使用深度强化学习来训练数据有效控制器的各种方法,来学习用于机器人运动的非常敏捷的策略。
今年,人们越来越强调安全性:我们如何在现实世界中部署安全交付无人机?我们如何以一种始终允许机器人从错误中恢复过来的方式探索世界?我们如何证明学习行为的稳定性?这是一个关键的研究领域,我们希望将来能将重点放在这方面。
量子计算
我们的量子AI团队继续致力于建立量子计算的实际用途。我们在Sycamore处理器上运行了实验算法,以模拟与化学和物理相关的系统。这些模拟接近无法再在经典计算机上执行的规模,这符合费曼最初将量子计算机用作模拟其中量子效应至关重要的系统的有效手段的初衷。我们发布了新的量子算法,例如执行精确的处理器校准,以显示量子机器学习的优势或测试量子增强的优化。我们还研究了编程模型,以使其更易于表达量子算法。我们发布了qsim,这是一种有效的仿真工具,可以在Google Cloud上开发和测试多达40量子比特的量子算法。
我们继续遵循我们的路线图,以构建通用的纠错量子计算机。我们的下一个里程碑是证明量子误差校正可以在实践中发挥作用。为了实现这一点,我们将显示,即使单个组件(例如,量子位,耦合器或I / O设备)存在缺陷,较大的量子位网格也可以比较小的网格以指数方式更长地保存逻辑信息。我们还特别高兴的是,我们现在拥有自己的无尘室,它将大大提高处理器制造的速度和质量。
支持更广泛的开发人员和研究人员社区
今年是TensorFlow的5岁生日,下载量达到1.6亿。TensorFlow社区通过新的特殊兴趣小组,TensorFlow用户组,TensorFlow证书,AI服务合作伙伴以及鼓舞人心的演示#TFCommunitySpotlight继续保持着惊人的增长。我们显著改善无缝TPU支持TF 2.X,开箱演出(中和MLPerf 0.7最佳的一流的性能),数据预处理,分销策略和新的NumPy的API。
我们还向TensorFlow生态系统添加了更多功能,以帮助开发人员和研究人员处理其工作流程:印度之音展示了在90天内从研究到生产的过程,使用TFX进行培训,使用TF.js部署在浏览器中。借助Mesh TensorFlow,我们突破了模型并行性的界限,以提供超高图像分辨率的图像分析。我们开源了新的TF运行时,用于模型性能调试的TF Profiler以及用于负责任AI的工具,例如用于模型透明性的Model Card Toolkit和隐私测试库。借助TensorBoard.dev,我们可以轻松地免费托管,跟踪和共享您的ML实验。
此外,我们加倍了对JAX的投资,JAX是一种在过去两年中一直在积极开发的开放源代码,以研究为中心的ML系统。Google和其他公司的研究人员现在在广泛的领域中使用JAX,包括差异隐私,神经渲染,物理信息网络,快速关注,分子动力学,张量网络,神经正切核和神经ODE。JAX加快了DeepMind的研究速度,为不断发展的图书馆生态系统提供了动力,并致力于GAN,元梯度,强化学习等。我们还使用JAX和Flax神经网络库构建了创纪录的MLPerf基准测试报告,我们在NeurIPS上的大型TPU Pod切片上实时演示了该演示文稿,并提供了下一代Cloud TPU用户体验(幻灯片,视频,注册表格) 。最后,我们确保JAX与TF生态系统工具无缝协作,从TF.data进行数据预处理,从TensorBoard进行实验可视化,再到TF Profiler进行性能调试,并将在2021年实现更多功能。
随着计算能力的提高,许多近期研究取得了突破,我们通过TFRC计划向全球研究人员免费提供了超过500 petaflops的Cloud TPU计算能力,以帮助拓宽机器学习研究的前沿领域。迄今为止,已经发表了120多篇由TFRC支持的论文,如果没有该程序提供的计算资源,其中许多是不可能的。例如,TFRC研究人员最近开发了野火蔓延的模拟,帮助分析了社交媒体网络上COVID-19含量和疫苗人气的变化,并加深了我们对彩票假设和神经网络修剪。TFRC社区的成员还发表了有关波斯诗歌的实验,赢得了有关细粒度时尚图像分割的Kaggle竞赛,并以共享的教程和开源工具为起点。由于Cloud TPU除TensorFlow之外还支持JAX和PyTorch,我们将在2021年将TFRC程序的名称更改为TPU Research Cloud程序,以更具包容性。
最后,对于Colab来说,这是丰收的一年。使用量增加了一倍,我们推出了生产力功能来帮助人们更有效地完成工作,包括改进的Drive集成和通过终端访问Colab VM的能力。我们推出了Colab Pro,使用户能够访问更快的GPU,更长的运行时间和更多的内存。
开放数据集和数据集搜索
-
具有清晰可衡量目标的开放数据集通常在推动机器学习领域方面非常有帮助。为了帮助研究社区找到有趣的数据集,我们继续使用Google数据集搜索为来自许多不同组织的各种开放数据集建立索引。我们还认为,重要的是创建新的数据集,以供社区探索和开发新技术,同时确保我们负责任地共享开放数据。今年,除
以上是关于翻译:Google研究:回顾2020年并展望2021年 - Jeff Dean的主要内容,如果未能解决你的问题,请参考以下文章