如何让强化学习走进现实世界?

Posted xinzhihao

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了如何让强化学习走进现实世界?相关的知识,希望对你有一定的参考价值。

来源商业新知网,原标题:应用|如何让强化学习走进现实世界?

火遍全球的AlphaGo让我们知道了强化学习打游戏究竟有多6,这么强大的算法什么时候才能打破次元壁,走进现实、控制物理世界中的物体呢?

DeepMind已经开始往这方面努力。他们昨天发布的控制套件“ DeepMind Control Suite ”,就为设计和比较用来控制物理世界的强化学习算法开了个头。

就像ALE(Arcade Learning Environment)极大推动了用强化学习打电子游戏的研究一样,DeepMind希望他们的Control Suite也能推动用强化学习控制实体的研究,比如说先让模拟环境中的机器人学会行走、游泳、搬东西等等。

Control Suite设计了一组有着标准化结构、可解释奖励的 连续控制任务 ,还为强化学习Agent提供一组 性能测试指标 。

这些任务基于MoJoCo物理引擎,所用的语言是Python。DeepMind在GitHub上放出的源代码中,就包含基于MoJoCo的Python强化学习环境,以及为MoJoCo提供Python绑定的软件库。

技术图片

如上图所示,Control Suite中的任务可以分为14个领域,也就是14类物理模型,上排从左到右分别是:

体操机器人Acrobot,(两节钟摆)、杯中小球、倒立摆、猎豹形机器人、手指、鱼、单足跳跃机器人,下排从左到右分别是人形机器人、机械手、钟摆、质点、形似两节手臂的Reacher、游泳机器人、步行者。

DeepMind还测试了A3C、DDPG和D4PG强化学习算法在这些任务上的表现,:

技术图片

这些结果也是强化学习完成控制任务的基线数据。

DeepMind Control Suite似乎很受欢迎,截止量子位发稿,已经在GitHub上收获了300多个星标。

技术图片

Twitter网友们也在热烈讨论这个Control Suite。不过,DeepMind官推为这个套件所选的配图,可谓骨骼清奇,被不少网友质疑:这是……最优跑步方式?

以上是关于如何让强化学习走进现实世界?的主要内容,如果未能解决你的问题,请参考以下文章

强化学习⚠️手把手带你走进强化学习 1⚠️ 强化学习简介

强化学习⚠️手把手带你走进强化学习 1⚠️ 强化学习简介

强化学习⚠️手把手带你走进强化学习 2⚠️ OPP 算法实现月球登陆器

强化学习⚠️手把手带你走进强化学习 2⚠️ OPP 算法实现月球登陆器 (PyTorch 版)

强化学习⚠️手把手带你走进强化学习 3⚠️ OPP 算法实现月球登陆器 (Tensorflow2 版)

强化学习⚠️手把手带你走进强化学习 3⚠️ OPP 算法实现月球登陆器 (Tensorflow2 版)