强化学习---TRPO/DPPO/PPO/PPO2

Posted 2021-02-02 zle1992

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了强化学习---TRPO/DPPO/PPO/PPO2相关的知识，希望对你有一定的参考价值。

时间线：

OpenAI 发表的 Trust Region Policy Optimization,

Google DeepMind 看过 OpenAI 关于 TRPO后, 2017年7月7号，抢在 OpenAI 前面把 Distributed PPO给先发布了.

OpenAI 还是在 2017年7月20号发表了一份拿得出手的 PPO 论文。（ppo+ppo2）

Proximal Policy Optimization

PPO是off-policy的方法。

跟环境互动的agent与用来学习得agent 不是同一个agent，可以理解为PPO 是一套 Actor-Critic 结构, Actor 想最大化 J_PPO, Critic 想最小化 L_BL.

技术分享图片

利用importance sampling

技术分享图片

通过KL散度加一个惩罚，使梯度更新的时候幅度不要太大。

技术分享图片

总的来说 PPO 是一套 Actor-Critic 结构, Actor 想最大化 J_PPO, Critic 想最小化 L_BL. Critic 的 loss 好说, 就是减小 TD error. 而 Actor 的就是在 old Policy 上根据 Advantage (TD error) 修改 new Policy, advantage 大的时候, 修改幅度大, 让 new Policy 更可能发生. 而且他们附加了一个 KL Penalty (惩罚项, 不懂的同学搜一下 KL divergence), 简单来说, 如果 new Policy 和 old Policy 差太多, 那 KL divergence 也越大, 我们不希望 new Policy 比 old Policy 差太多, 如果会差太多, 就相当于用了一个大的 Learning rate, 这样是不好的, 难收敛.

技术分享图片