让机器像人类一样学习？

Posted 2023-04-05

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了让机器像人类一样学习？相关的知识，希望对你有一定的参考价值。

如果要让机器人拥有人的学习能力，应该怎么做？伯克利 AI 研究院给出了一个很好的答案——元强化学习（meta-RL）。但这一次伯克利 AI

参考技术A 如果要让机器人拥有人的学习能力，应该怎么做？伯克利 AI 研究院给出了一个很好的答案——元强化学习（meta-RL）。但这一次伯克利 AI 研究院不只是使用了元强化学习，还考虑POMDP、异步策略梯度等等知识体系，最终得到了一个高样本效率、高探索效率的新算法「PEARL」。这一成果不仅为解决 AI 的实际问题提供新的思考角度；同时也是实现在现实系统中规模化应用元强化学习的的第一步。伯克利 AI 研究院发布博文介绍了这一成果，编译如下。
背景
一个智能体如果要在不断变化的复杂环境中正常运行，那么它获得新技能的速度必须足够快。就像人类在这一方面表现出的非凡能力一样，比如：人类可以从某个示例中学习怎样辨别出一个全新的物体；在几分钟内适应不同汽车的不同驾驶方式；以及听过某个俚语后，就能在自己的词典中加上这个词，等等。
因此，假设要使智能体来完成诸如人类这样的学习能力，元学习则是一种可以参考的方法。使用这一范式，智能体可以通过充分利用在执行相关任务中积累的丰富经验，以这些有限的数据为基础去适应新的任务。针对这类既需要采取行动又需要积累过往经验的智能体来说，元强化学习可以帮助其快速适应新的场景。但美中不足的是，虽然训练后的策略可以帮助智能体快速适应新的任务，但元训练过程需要用到来自一系列训练任务的大量数据，这就加剧了困恼强化学习算法的样本效率低下问题。因此，现有的元强化学习算法在很大程度上只能在模拟环境中正常运行。在本文中，我们简要介绍了元强化学习的研究现状，然后提出了一种新算法—— PEARL，该算法使得样本效率得到数量级的大幅度提升。
前期回顾：元强化学习的研究进展
两年前，伯克利博客发布了一篇叫做《Learning to Learn》（文章查阅地址：https://bair.berkeley.edu/blog/2017/07/18/learning-to-learn/）的文章。这篇文章除了提出新的算法外，还对当时人们对元学习的兴趣激增做了调查统计，结果表明无论是当时还是现在，元学习的关键思路就是把复杂的问题简化成我们已经知道如何解决的问题。在传统的机器学习中，研究者会给定一组数据点用来匹配模型；而在元学习中，则用一组数据集来替换这些数据点，其中每个数据集都对应一个学习问题。只要学习这些问题的过程（所谓的「适应」）是可区分的，就可以像往常一样，在具有梯度下降的外循环（元训练）中对其进行优化。一旦经过训练，适应程序就可以迅速从少量数据中解决新的相关任务。

最近的元强化学习进展（从左到右依次为：通过元学习对观察到人类行为实现单样本模仿https://arxiv.org/abs/1802.01557、以元强化学习模型为基础的断腿适应https://arxiv.org/abs/1803.11347、用演变的策略梯度来推断超越训练任务分布的情况https://arxiv.org/abs/1802.04821）
当时，大多数元学习工作都集中在小样本图像分类上。在此后的几年里，元学习应用到了更广泛的问题上，如视觉导航、机器翻译和语音识别等等。所以，将强化学习运用到元学习方法内是一个具有挑战性但又振奋人心的任务，因为这样的结合将有望使智能体能够更快速地学习新的任务，这个能力对于部署在复杂和不断变化的世界中的智能体来说是至关重要的。
因为元学习本身的样本复杂性问题和深度强化学习紧密相关，因此元学习可以通过与深度强化学习相结合来解决这个问题。两年前一些关于元学习的论文（RL2 https://arxiv.org/abs/1611.02779，Wang et al. https://arxiv.org/abs/1611.05763, 和 MAML https://arxiv.org/abs/1703.03400），介绍了在策略梯度（policygradient）和密集奖励（denserewards）的有限环境中将元学习应用于强化学习的初步结果。此后，很多学者对这个方法产生了浓厚的兴趣，也有更多论文展示了将元学习理念应用到更广泛的环境中，比如：从人类演示中学习（https://arxiv.org/abs/1802.01557）、模仿学习（https://arxiv.org/abs/1810.03237）以及基于模型的强化学习（https://arxiv.org/abs/1803.11347）。除了元学习模型参数外，我们还考虑了超参数和损失函数。为了解决稀疏奖励设置问题，于是有了一种利用元学习来探索策略的方法。
尽管取得了这些进展，样本效率仍然是一项挑战。当考虑将 meta-RL 应用于实际中更复杂的任务时，快速适应这些任务则需要更有效的探索策略，因此在实际学习任务中，需要考虑如何解决元训练样本效率低下的问题。因此，伯克利 AI 研究院基于这些问题进行了深入研究，并开发了一种旨在解决这两个问题的算法。
异步策略元强化学习的优势
尽管策略梯度强化学习算法可以在复杂的高维控制任务（如控制拟人机器人的运行）上实现高性能，但它们的样本效率仍然很低。比如，最先进的策略梯度法（PPO https://arxiv.org/abs/1707.06347）需要一亿个样本来学习一个良好的类人策略，如果我们在一个真实的机器人上运行这个算法，并用一个 20 赫兹控制器使其连续运行，在不计算重置时间的情况下，需要耗费近两个月的时间来学习。其效率低下的主要原因是形成策略梯度更新的数据必须从现行策略中取样，而不是在训练期间重复使用以前收集的数据。最近的异步策略（off-policy ）算法（TD3 https://arxiv.org/abs/1802.09477，SAC https://arxiv.org/abs/1801.01290）与策略梯度算法的性能不相上下，然而需要的样本数量却减少了 100 倍。如果研究者能够利用这种算法进行元强化学习，数周的数据收集时间可减少至半天，这就使元学习更高效。异步策略学习在从零开始进行训练时，除了大大提高了样本效率外，还有进一步的功能优化——它不光可以利用以前收集的静态数据集，还可以利用其他机器人在其他场景中的数据。

非策略强化学习（SAC）比策略梯度（PPO）更有效
探索问题
在监督元学习中，用于适应新任务的数据是给定的。例如，在小样本图像分类中，我们会为元学习智能体提供针对我们希望标注的新的类的图像和标注。在强化学习中，智能体负责探索和收集自身的数据，因此适应程序必须包括有效的探索策略。“黑盒子”元学习智能体（RL2，and SNAIL https://arxiv.org/abs/1707.03141）可以学习这些探索策略，因为在递归优化中，整个适应过程被视为一个长序列。类似地，基于梯度的元强化学习方法可以通过将信用分配给更新前策略收集到的轨迹和更新后策略获得的回报来学习探索策略。虽然理论上是可行的，但实际上这些方法并没有学习临时延伸的探索策略。
为了解决这个问题，MAESN （https://arxiv.org/abs/1802.07245）以决定策略和通过梯度下降来适应新任务的概率性潜在变量的方式，增加了结构化的随机性。该模型经过训练，使先前的样本对探索轨迹进行编码，而来自适应变量的样本则得到最优的适应轨迹。总的来讲，所有这些方案都适用于同步策略（on-policy）强化学习算法，因为它们依赖于从同一现行策略中取样的探索和适应轨迹，因此需要同步策略采样。为了构建同步策略元强化学习算法，我们将采用不同的方法来探索。
通过元学习后验采样法探索
在全新的场景中进行探索，一个非常简单的方法是假装它是你已经见过的东西。例如，如果你第一次看到火龙果并想去吃它，你会将它类比成芒果而按照吃芒果的方式用刀来切开它。这是一种很好的探索策略，它能够让你吃到里面美味的果肉。而当你发现火龙果的果肉更像猕猴桃后，你可能又会切换到吃猕猴桃的策略，使用勺子挖出果肉吃。
在强化学习的相关文献中，这样的探索方法叫做后验采样（或 Thompson sampling）。智能体在 MDPs 上有个数据集分布，然后从该分布中迭代采样新的 MDP，并根据它来决定最佳的操作方式，同时使用收集到的数据来完成分布的更新。随着收集的数据越来越多，后验分布缩小，使探索和迭代之间实现稳定的过渡。这一策略看似有限，因为它去掉了采取无目的探索性行为的可能性；然而此前的一项工作“(More) Efficient Reinforcement Learning via Posterior Sampling”表明，通过后验采样确保最坏情况下累积的遗憾值（regret）接近于当前最佳的探索策略。

通过后验采样法吃一个奇怪的新水果
在实际问题中，我们如何在 Mdps 上表示这种分布？一种可能是保持过渡和奖励功能的分布。为了根据采样模型进行操作，我们可以使用任何基于模型的强化学习算法。Bootstrapped DQN 将这一想法应用于无模型的深度强化学习中，并在 Q 函数上维持近似后验。我们认为可以通过学习不同任务在Q 函数上的分布来将这一想法扩展到多任务环境中，并且这种分布对于新的相关任务中的探索非常有效。
为了在元强化学习中引入后验采样法，我们先在 Mdps 上对基于 Q 函数的分布进行建模，通过实例化潜在变量 z，并根据经验（或语境）来推断出模型会将 Q 函数作为输入来调整其预测。在元训练过程中，学习 z 此前所有的变量来表示元训练任务的分布。面对测试时的新任务，智能体从之前的假设中取样，然后根据选出的这一假设决定在环境中采取什么样的行动，之后再通过新的证明来对后验分布进行更新。当智能体收集轨迹时，后验分布缩小，同时该智能体也会生成对当前任务更好的预测。
将元强化学习视为 POMDP
运用在元强化学习上的贝叶斯后验观点，揭示了元强化学习与partially observed MDPs(部分可观察的马尔可夫决策过程)（POMDPs）之间的关系。当建模环境中当前观察到的事情无法告知你当前环境中的所有事情时（即只能部分观察当前状态），POMDPs 对于这种建模环境来说非常有用。就好比说，当你在一栋楼附近行走，灯光突然全部熄灭，此时你无法从黑暗中立即观察到你在什么位置，但你仍然会对自己的位置有一个预估，因为你可以凭借记忆在灯光熄灭前所看到的场景来预估。而求解 POMDPs 就是相似的原理，它涉及到对观测历史信息的集成，从而达到准确地估计当前状态的目标。

POMDP 的图像模型
元强化学习则可以被看作是具有特殊结构的 POMDP，它的任务就是当前状态中唯一未观察到的部分。在我们的示例中，任务可能就是找到一个你从未去过的办公室。在标准的 POMDP 中，智能体每进行下一步时都必须对状态进行重新估计，这样就能够不断地更新对建筑物中位置的估计。而在元强化学习示例中，任务在各个探索轨迹上不会一直变化，即在现实世界中，办公室的位置不会在寻找过程中改变。这也表示该方法可以保持对办公室位置的估计，而无需担心潜在的系统动态在每个步骤中改变它的实际位置。将元强化学习算法转换为 POMDPs 的说法，即智能体要维持任务的信念状态（belief state ）——当在多个探索轨上收集信息时，任务会进行更新。
贝壳中的 PEARL
如何把任务上的信念状态与现有的异步策略强化学习算法结合起来呢？首先，我们可以通过使用以上下文（经验）为输入的编码器网络 q(z|c) 推断出后验信念的变分近似。为了保持可操作性，我们将后验部分表示为一个高斯函数（Gaussian）。对于强化学习算法的智能体，我们选择在 Soft Actor-Critic（SAC）的基础上建模，因为它具有当前最佳的性能和样本效率。信念状态中的样本传递给 actor、critic，以便他们能够根据样本任务进行预测。然后元训练过程包括学习推导给定上下文的后验 q(z|c)，并根据给定的 z 优化训练 actor 和 critic。编码器则是使用 critic 的梯度渐变优化（因此 q(z|c) 表示 Q 函数上的分布），以及信息瓶颈也是如此。出现这种瓶颈是派生出变分下界的结果，但这也可以直观地将其解释为上下文和 z 之间信息的最小化，这样 z 就包含了预测状态-动作值所需的最小化的信息。

关于这个方案需要注意的一点是，为训练 actor 和 critic 而取样的一批数据与上下文的一批数据会分离。直观而言，这是有用的：通过明确表示任务的信念状态，智能体将任务推断与控制分离，并且可以使用完全不同的数据源来学习每个任务。这与 MAML 和 RL2 等方法形成了鲜明对比，它们将任务推理和控制结合在一起，因此必须同时使用一批数据。
而事实也证明这种分离对于异步策略元训练很重要。究其原因，我们可以想到，目前的元学习预测基于的假设是：训练和测试阶段应保持一致。例如，在测试时进行新动物物种分类任务的元学习智能体，应该接受在包括动物在内的类分布上进行训练。而强化学习中与此类似的是，如果在测试时智能体通过收集同步策略数据来进行调整，那么它也应该使用策略上的数据进行训练。因此，在训练期间使用异步策略数据则会给分布带来变化，从而破坏了这一基本假设。在 PEARL 中，我们可以通过对同步策略数据进行上下文采样，同时将异步策略数据用于 actor-critic 的训练，来减小这一分布的变化，并大规模使用异步策略数据。
彼时，该算法的一部分仍然是抽象的编码器体系结构。回顾下，这个编码器的工作是在上下文中（由状态、动作、奖励和下一个状态组成的一组转换）进行，并在潜在的上下文变量上生成高斯后验参数。虽然递归神经网络在这里看似是一个明智的选择，但我们注意到，Markov 的属性意味着可以在不考虑它们在轨迹中顺序的情况下对这些转换进行编码。基于这一观察，我们采用了一个具有排列不变性、可以独立地预测每个转换的高斯因子的编码器，并让这些因子相乘构成后验采样。与 RNN 相比，该体系结构在优化方面更快、更稳定，并且可以适应更大规模的上下文。
准备充分后，PEARL 怎么工作？
我们使用 MuJoCo 模拟器在六个基准连续控制域上对 PEARL 进行了测试，该模拟器在不同任务之间有不同的奖励或动态功能。例如，对于 Ant 智能体，不同的任务对应着在 2D 平面上为不同目标位置导航；而对于 Walker 智能体来说，任务对应于其关节的不同参数和其他物理参数。
我们将 PEARL 与三种最先进的元强化学习算法进行了比较，即 ProMP、MAML 和 RL2。结果如下图所示，其中蓝色曲线代表 PEARL 的结果。需要注意的是，x 轴的单位（呈对数比例）。该方法通过在元训练过程中利用异步策略数据，将样本效率全面提高了 20-100 倍，并且它的最终表现往往也优于基线。

在稀疏的奖励域，有效的探索尤其重要。试想一个点机器人，它必须对半圆上的不同目标位置导航，并且只有定位到目标位置的小半径范围内（可在蓝色区域观察到）才会获得奖励。通过对目标位置的不同假设进行采样并随后更新其信念状态，智能体可以进行有效地探索，直到找到目标位置。我们通过对 PEARL 与 MAESN 进行比较，MAESN 就是我们前面讨论到的通过潜在变量生成的元学习探索策略，最终发现 PEARL 不仅在元训练中具有更高的采样效率，还能更有效地进行探索。

点机器人利用后验采样来探索和找到稀疏奖励设置中的目标
未来发展方向
虽然元学习为智能体如何快速适应新的场景提供了一个可能的解决方案，但它同时也产生了更多的问题！例如，元训练任务从何而来？它们必须手动设计，还是可以自动生成的？虽然元学习从本质上来说是偶然的，但现实世界是一个持续不断的、永无止境的变化流程——智能体如何处理一直随时间变化的任务？设计奖励函数非常困难——相反地，我们能否在元强化学习算法中同时利用二进制反馈、偏好和演示？我们认为 PEARL 中贝叶斯推理方面的研究能够为解决其中一些问题带来一个新的视角；同时我们也相信，PEARL 在学习异步策略上的能力是实现在现实系统中规模化应用元强化学习的的第一步。

让机器像人类一样多模态交互，会是物联网的胜负手吗？

技术这个事情，很多时候不是一蹴而就的。

更多时候，是大家先看到了一个东西非常美好，结果左发展右发展也发展不起来，在吃瓜群众们兴奋地送上一首《凉凉》之后，搞不好哪天却突然一个胜负手抛出来，一切又都不一样了。

曾经的移动通讯、触屏交互莫不如是，今天的3D打印、VR说不定也在重复这个套路。更明显的可能是物联网。这个我们念叨了好多年，虽然也一直在发展，但始终没有大热的技术，到底在等待什么呢？

等待AI？但是音箱刮过一阵语音交互的风潮之后，IoT设备搭载语音控制模块也火了起来。可是直到今天，我们好像发现物联网还是那个物联网，基本没什么变化。

让我们往更深层开个脑洞，“AI of Things”在等待的，可能不仅是语音交互，而是耳目鼻口耳协同工作的多模态AI交互。

你不温柔，我不主动：为什么我们始终远离IoT？

首先我们要搞懂一件事：为什么给设备联网的方案推行了这么多年，我们身边，包括工业和工程领域，真正用到的物联网设备还是没有多少？

答案在于，光给机器设备联网是没用的。你家的桌椅板凳又不想聊微信逛淘宝看快手，它们要网作甚？

人最终需要的是服务，所以设备仅仅联网是没用的，联网之后必须能干点什么才行。这就需要两件事情：1. 人与设备可交互；2. 设备能够感知到人的需求。

在触屏、键盘和手机集成遥控模式，都被证明太麻烦之后，物联网开始把目光投向了能够提供自然交互与感知能力的AI。

机器能够听懂人类说话，并且产生对话并提供服务，似乎某种意义上从源头解决了物联网设备缺乏实际价值的尴尬。于是我们见到了越来越多搭载语音交互平台，能够实现对话的物联网设备。从电视、冰箱到家居设备，再到各种终端不胜枚举。

技术分享图片

但实践下来发现，这种模式问题还是不少：比如语言控制不如屏幕控制那么精准，很多时候会误判指令和错误唤醒，比较语言充满了不确定性；再比如，语音交互的物联网设备还是缺乏主动服务的能力，只是换了操作方式而已，用户体验没有本质提升。

仅仅是“能听”，并且还经常听错的物联网设备，就像是两个人谈恋爱，其中一方从来不看你，不会知冷知热、嘘寒问暖，还经常搞错对方的意思，那另一方当然表示我懒得理你…

目前来看，把按钮换成了语音命令平台，隐藏的不确定性太多，而实际价值太少，很难成为物联网爆发的真正依托。

这种“你不温柔我不主动”的人机关系究竟怎么改变呢？

答案也许是让机器能够听和说之外，还要能看，能感觉，甚至能将五感联系到一起进行思考。

感知到交互：机器的五感俱全

所谓“模态modality”，是德国生理学家赫尔姆霍茨提出一种生物学概念。即生物凭借感知器官与经验来接受信息的通道，比如人类有视觉模态、听觉模态等等。

后来这个概念引申到人文科学领域，成为哲学和文学上的一种话语批评方式；而来到机器人和计算机科学领域，就成了机器与物理世界联系的通道。

假如我们把“模态”通俗地理解为感官，那么智能音箱就是只具备听觉模态的物联网设备，而加载AI分析能力的摄像头可以视为视觉模态的物联网设备。把听觉、视觉甚至更多模态组合到一起，多模态物联网也就诞生了。

技术分享图片

事实上，在AI研究当中多模态转换是非常普遍的课题。比如一个很出名的AI研究方向是让智能体根据看到的某张图片来生成文字（也有看到文字生成图片和视频的），这就是让AI模型完成在视觉和语义之间的模态转换。

运用到物联网设备当中，今天主要的AI感知模态有三种：1. 语音交互，包括语音指令控制、语义理解、多轮对话、NLP、语音精准识别等领域；2. 机器视觉，包括自然物体识别、人脸识别、肢体动作识别等；3. 传感器智能，包括AI对热量、红外捕捉信号、空间信号的阅读与理解。

技术分享图片

把这三种东西融合在一起，物联网设备就可以在单纯的能听会说之外，同时还用摄像头观察、用传感器判断。而比较前沿的多模态感知研究当中，还包括机器嗅觉，机器触觉和情绪理解等内容。

我们在等待的下一代物联网设备，很可能诀窍就是把这些模态给揉在一起，完成从多模态感知到多模态交互的体验。用一句我们十分熟悉的话说，就是要让机器身上的五感“生态化反”…

今天让人乐观的多模态交互型IoT

又能听，又能看，又有传感器的设备，听上去似乎有点过分乐观了。但好在综合了较多采访与观察之后，我们发现今年确实是值得为多模态物联网设备乐观一下的时候。

可以看到，很多双模态交互，甚至多模态混合交互的解决方案都在从实验室里走出来，甚至已经可以在我们生活中看到。这些解决方案更重要价值是作为案例，可以让更多企业、开发者和垂直行业看到多模态物联网的可复制价值。

举例来说，离我们最近的多模态AI交互技术投射在物联网设备上，大概就是用机器视觉技术进行嘴唇识别，来分离语音交互指令。我们可以看到很多实验室和科技公司，都在尝试用机器视觉来读取说话人的唇语和动作，从而判断每个声音指令的来源。

这种技术已经在国内被运用到地铁售票解决方案中，通过机器视觉来识别买票人，从而在地铁站的嘈杂环境中完成语音售票。

技术分享图片

另一个我们能看到的例子是空调。在一些新的智能空调解决方案中，空调会在语音交互的基础上通过机器视觉来判断用户的位置，提供智能送冷，并且会结合传感器判断屋内温度和湿度，提供更精准的环境方案。

同样是在家电上，今年电视背后的AI平台战打得风生水起，把机器视觉技术引入电视成为了新的趋势。通过机器视觉来让电视观察屋内照明情况、用户与电视的距离，电视可以主动调节屏幕光线强度，输出比较护眼的模式。还有的AI应用是让电视在观察到儿童看电视后主动开启童锁。

在日常生活之外，多模态交互设备也在应用于工业设备中。比如通过给机器设备搭载机器视觉+传感器提供安全警告，以及利用机器视觉+故障信号的方式判断设备问题等。

把不同信号模态整合在一起，实现设备的多维感知，今天正在以比较快的速度来到应用市场。

高精度判断用户命令，输出主动服务；提供实时化、弹性化的体验，可以说是AI带来的多模态交互技术放进物联网世界中的一张鬼牌。

当然了，还是有几道难关…

按照惯例，最后我们还是要正视任何技术都存在不足。刚刚有一点萌芽的多模态交互+物联网当然也不例外。

最核心的一个问题，是我们到底靠什么实现多模态协同？

目前来看，无论是家电还是工业设备，实现多模态混合的主要方式还是把不同的传感源输入到设备处理中心，启动一定程序来开启相应服务。

换句话说，AI模型本身是没法理解多模态信号的，只是不同的算法启动不同的开关而已。这种“伪AI多模态”的设备也不是不行，只是在实时化和复杂的推理判断上会有心无力。

解决方案可能是一种叫做“多模态深度学习”的技术，让AI智能体本身能够理解多模态信号，从算法本身就容纳听觉、视觉、传感信号进行统一思考。这样可以保证设备高度实时化，并且可以让设备进行多模态协同学习，真正地“聪明”起来。

这要求在算法上对多维度数据的各自表示、融合、对齐有新的突破，今天我们还只能等待学术界的好消息。

另外一个问题，是今天的多模态交互缺少有效的开发平台，开发者和企业很难复制这一模式，来进行独立的物联网解决方案开发。当然，目前来看这应该仅仅是个时间问题。

与之相对应的，是在缺乏行业标准、开发基础的前提下，今天开发一个多模态物联网项目需要大量的人才成本和综合开发成本。并且缺少芯片、专用传感器等后端硬件的支撑。这个领域国内有一些芯片和算法公司，但似乎大部分处在做PPT的画饼阶段。

综合来看，AI带来的多模态想象力，大概确实可以完成一些物联网很早就希望实现的东西。但方兴未艾的产业局势，还需要巨头搭建平台、优质案例出现、开发者路径明确等几个环节才能开启下一轮风口。

但无论如何，耳聪目明的机器，已经在跑步过来的路上了……

以上是关于让机器像人类一样学习？的主要内容，如果未能解决你的问题，请参考以下文章

机器学习十三

让机器像人类一样多模态交互，会是物联网的胜负手吗？

第一节机器学习基础

如何让机器像人一样多角度思考？

什么是人工智能？/ 简述学习推理和存储三者之间的联系？

R语言+数据挖掘合璧，剑指商业应用