Reinforcement Learning强化学习系列之二:MC prediction

Posted luchi007

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Reinforcement Learning强化学习系列之二:MC prediction相关的知识,希望对你有一定的参考价值。

引言

这几个月一直在忙找工作和毕业论文的事情,博客搁置了一段时间,现在稍微有点空闲时间,又啃起了强化学习的东西,今天主要介绍的是强化学习的免模型学习free-model learning中的最基础的部分蒙特卡洛方法(Monte Carlo),并以21点游戏作为说明。
本文主要参考的文献是[1]参考的主要代码是这位斯坦福大神的课程代码,本系列的文章均不作为商用,如有侵权请联系我的邮箱

Monte Carlo Learning

在前一篇文章中介绍了基于模型的强化学习方法,对于很多现实问题,其实环境的state和状态转移概率是未知的,因此在计算Value的时候不能按照基于模型的方法进行全概率展开,这也是免模型学习的难点所在。很自然的对于很多数学问题,如果不能直接求解,采样的方法是个替代的方法,比如重要性采样。

在蒙特卡洛(MC)的强化学习中,MC并不是特指某个具体的方法,只是单纯指的是基于随机采样的方法进行计算学习。本节主要讲的是通过MC计算Value的方法。

对于某种策略

以上是关于Reinforcement Learning强化学习系列之二:MC prediction的主要内容,如果未能解决你的问题,请参考以下文章

强化学习专栏——Reinforcement Learning

强化学习 Reinforcement Learning

Reinforcement Learning强化学习系列之一:model-based learning

强化学习 (Reinforcement Learning)

干货总结| Deep Reinforcement Learning 深度强化学习

Reinforcement Learning强化学习系列之三:MC Control