Gae&reward shaping

Posted lin-kid

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Gae&reward shaping相关的知识,希望对你有一定的参考价值。

1| reward. shaping

如果对vs有大致的认知,把势能potential-based定义为估计的最优价值函数,能加快价值函数收敛

 

技术图片

2、gae:广义优势估计

absorb state:terminal state

γ-just条件:尚未理解

GAE(Generalized Advantage Estimation)

  1. GAE的作用

    • GAE的意思是泛化优势估计,因而他是用来优化Advantage Function优势函数的。
    • GAE的存在是用来权衡variance和bias问题的:
      • On-policy直接交互并用每一时刻的回报作为长期回报的估计Tt=tγttrtt=tT?γttrt? 会产生较大的方差,Variance较大。
      • 而通过基于优势函数的AC方法来进行回报值估计,则会产生方差较小,而Bias较大的问题。
  2. GAE 推导

    满足γγ-just条件。(未完待续)

  3. GAE形式

    GAE的形式为多个价值估计的加权平均数。

? 为了快速估计序列中所有时刻的估计值,采用倒序计算,从t+1时刻估计t时刻:

 

以上是关于Gae&reward shaping的主要内容,如果未能解决你的问题,请参考以下文章

如何从 GAE 数据存储中删除列(属性)?

深度强化学习reward一直震荡波动不上升的原因

text expected_reward.re

text reward.re

Reward HDU - 2647

hdu 2647 Reward - 拓扑排序