2021-05-19 关于RL探索的一些论文
Posted 雷姆是我的
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了2021-05-19 关于RL探索的一些论文相关的知识,希望对你有一定的参考价值。
最近小伙伴在研究RL当中的encoder refinement,我就看了一眼exploration。有时候一个着不好用,可能得两个着或者三个着,不行还得马大师出面一下。
先说我们的基础是DreamerV1和DreamerV2。这两篇文章细节相当复杂,但是相当有意思。我建议对Model Based RL感兴趣的同学仔细阅读一下。此外,在这个过程中,目前揪出来的encoding refinement相关的还有Normalizing Flow。大家也可以看看。
关于Exploration,大概最主要的例子都是蒙特祖玛的复仇。传统做法是把visit新的状态当作是一个reward,所以即使agent啥也没学到,一直去学习也好。这方面文章挺多。最近看来,这个趋势不是很多了。下面分享几篇文章吧。
Geometry Entropic Exploration基本上是借用了Contrastive Learning的思想,使得相似的pair尽可能一样,而不一样的pair尽可能不一样。整体来说,作者提出的GEM Entropy跟最大化直接的Entropy是等价的(?)。至于效果,各位看官只能自己尝试了。
EULER是一篇相当复杂的文章。这篇文章是非常典型的(也是很少见的)通过数学推导推动算法的文章。整体讲的仍然是exploration,感兴趣小伙伴可以看看。
Reward Free Exploration这篇文章大概就是说,虽然你们
reward设计的各种花里胡哨的,但是实际上,在真正的应用当中,你们还是得靠case-by-case的设计,所以我想提出来一个和reward没有关系的exploration方法。 整体来说,分为Explore + Plan (运用Approximate MDP Solver)和Policy Gradient。方法基于EULER为基础。感兴趣小伙伴可以看看。
大体今天看了这些。我估计Explore还要继续看。我没想到的是这些算法非常偏数学。
以上是关于2021-05-19 关于RL探索的一些论文的主要内容,如果未能解决你的问题,请参考以下文章