李宏毅老师2020年深度学习系列讲座笔记4
Posted ViviranZ
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了李宏毅老师2020年深度学习系列讲座笔记4相关的知识,希望对你有一定的参考价值。
瞎看吧。。。。至少做个笔记
https://www.bilibili.com/video/BV1UE411G78S?from=search&
终于讲到PPO了哈哈哈哈超搞笑超好玩的
首先给出基本要素啦,依旧是我们熟悉的actor、environment、reward function
和policy~
接下来就是讲了流程啦,观察到s_1→做出a_1→得到r_1→观察到新的s_2→……
一般来说~s_2和s_1、a_1都有关,而且一般来说是一个distribution而不是一个确定的值(打游戏并不是你看到这个页面做一个行动的结果是给定的,那样也太无聊啦!)
而且reward也不是一定的~因此我们针对这个问题,计算的不是一个reward而是reward的期望!(很多个trajectory的均值)
具体方法(公式推导在第二次笔记里说过了)
实作思路(复习啦)
用到的作为对照的都是sampling的结果
tips:1.baseline:因为reward是非负的 可能给不太好的action增大probability都会导致reward增加,因此通过add一个baseline只加比baseline大的,小的(由于乘上一个负数)概率会减小
2.可能有“败方MVP”现象:虽然有的总reward不好但是单步action好;有的虽然reward高但是有不好的action。
解决思路:因为每一条路上各个action如果都用(R(\\tao^n)-b)一样的权重的话会造成平均但是不公平,因此我们用这一步之后所有的reward而不是整条trajectory的reward作为权重
还要乘上一个discount factor(\\gamma)
1.本身离这action越远和action的关系越小
2.人们更希望得到奖励的时间尽量及时
以上是关于李宏毅老师2020年深度学习系列讲座笔记4的主要内容,如果未能解决你的问题,请参考以下文章