<GPS; Guided Policy Search

Posted 小贝也沉默

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了<GPS; Guided Policy Search相关的知识,希望对你有一定的参考价值。

1. 写在最前面

最近一直在调研增强学习在机器人应用的文章, 看了一些文献, 其中看到15年IROS上的一篇论文[2], 大致浏览了一下, 在PR2上进行了实现, 较之前看到的不少论文在仿真上实现感觉要靠谱一些, 论文提供了视频DEMO, 下载下来看了一下, 直接感觉吊炸天了有没有. 随后就查了查他到底是属于哪个学校的哪个实验室. 最后聚焦到Sergey Levine身上. 进了Sergey Levine的个人主页, 看了他的一些成果, 瞬间吓尿了.

跟着Sergey看了他好几篇论文, 个人感觉, 每一篇论文都好长. 而且公式很多, 涉及的知识点更多, 这都不是重点. 重点是, 在Sergey的论文里面, 论文[2]中反复提到之前的工作 [3 - 5], [3]中提及[4 - 5]的工作, 一直这么往前延续, 当前的工作是建立在以前工作基础之上, 让人蛋疼无比.最后, 干脆心一横, 找出Sergey在13年发出的这篇论文, Guided Policy Search[1]进行阅读.

按照时间顺序, 依次看到几年的几篇论文, 花了很长的时间和精力. 作出了一些总结. 之后, 我会按照时间先后, 依次将我整理的一些资料发布出来, 我发现这方面中文资料几乎没有(或许是我没有找到-_-). 也方便后来者有一些中文的资料可以参考一下.

文档中并不是逐字按照原文翻译, 加入了我的一些理解, 以及省略了部分内容. 如果是想深入研究该算法的朋友, 最好还是以原文为准, 以我的资料为辅. 其中难免会有一些错误的地方, 有大神看到有理解错误的地方, 还请指出, 方便我对错误思想进行纠正, 也防止别人受了误导.

2. Guided Policy Search

直接策略搜索(Direct Policy Search)能够有效的应对高维系统, 但是对于具有数以百计的参数的策略一直是具有挑战性的, 需要数量非常大的样本来进行学习, 并且容易陷入局部最优.本论文提出引导策略搜索算法(Guided Policy Search), 将轨迹优化(trajectory optimization)应用到直接策略学习中, 避免了陷入局部最优. 该论文提出, 可以使用差分动态规划(Differential Dynamic Programming)生成合适引导样本(Guiding samples), 并使用了一个新颖的正则化项, 提出正则化重要样本策略优化(regularized importance sampled policy optimization), 用来合并这些引导样本到策略搜索中. 论文最后, 进行了一系列仿真实验, 验证算法效果.

2.1 Preliminaries

增强学习可以表述如下:

增强学习目的是找到一个最优的策略 π , 在一个随机的环境中控制agent. 将连续的时间划分为离散的时间步 t (time step t), 在每一个时间步, 可以观察(observe)得到agent 的一个状态(state) xt , 依据该状态选择一个行为(action) π(utxt) , 下一个时间步的状态, 不单依据当前时间步的状态和所选择的行为, 还依赖于状态转移概率 p(xt+1|xt,ut) , 最优策略 π 是能够获得从时间步1到时间步T最大累积回报的策略 maxπTt=1r(xt,ut) .

从时间步1到时间步 T 的可以得到(xt,ut)序列, 将其表述成一条轨迹 ζ , 使用 r(ζ) 表示沿着轨迹 ζ 的总回报值, 使用 π(ζ) 标记在策略 π 下轨迹 ζ 的概率.

策略梯度算法(Policy gradient method), 是通过直接优化用参数 θ 描述的策略 πθ , 使其对应的回报期望值最大, 从而得到最优策略所对应的参数 θ .在实际操作过程中, 每一次迭代沿着 E[J(ζ)] 方向走一个步长, 直至收敛. 每一次梯度的估算使用下述公式.

E[J(θ)]=E[r(ζ)logπθ(ζ)]1mi=1mr(ζi)logπθ(ζi)

其中, logπθ(ζi) 能够分解到 tlogπθ(utxt) , 因为状态转移概率 p(xt+1xt,ut) 不依赖与优化变量 θ .

上诉过程, 每一次迭代需要使用到评估器对目标期望函数进行梯度评估. 一般方法是, 使用当前策略产生一系列的样本, 然后使用这些样本来估计函数的当前的梯度, 这样会产生巨大的工作量, 让学习过程变得非常耗时, 并且每一次迭代产生的样本使用之后将会被丢弃, 下一次迭代并无法使用. 这类的算法不允许使用off-policy样本, 同时对于每一梯度步的步长选择也需要谨慎才能确保达到收敛.

重要采样(Importance Sampled)是一项技术, 使用另一个概率 q(x) 来估算关于概率 p(x) 的期望 Ep[f(x)] .数学表达如下:

Ep[f(x)]=Eq[p(x)q(SE-555 A4: GPS Position讲解

SE-555 A4: GPS Position Observer

PGO - Profile-guided optimizations

PGO - Profile-guided optimizations

FASTER CNNS WITH DIRECT SPARSE CONVOLUTIONS AND GUIDED PRUNING

论文笔记之:Localizing by Describing: Attribute-Guided Attention Localization for Fine-Grained Recognition