强化学习专栏|蒙特卡洛法(Monte Carlo Methods)

Posted 码丽莲梦露

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了强化学习专栏|蒙特卡洛法(Monte Carlo Methods)相关的知识,希望对你有一定的参考价值。

·        蒙特卡罗方法只需要经验——从与环境的实际或模拟交互中获得的状态、动作和回报的样本序列。从实际经验中学习是惊人的,因为它不需要事先了解环境的动态,仍然可以获得最佳的行为。

1 蒙特卡洛预测(Monte Carlo Prediction)

        我们首先考虑学习给定策略的状态值函数的蒙特卡罗方法。回想一下,状态的值是从该状态开始的预期回报--预期的累积未来贴现回报。因此,从经验中估计它的一个显而易见的方法是,简单地对访问该状态后观察到的回报进行平均。随着观察到更多的回报,平均值应该会收敛到预期值。这个想法是所有蒙特卡罗方法的基础。具体过程如下:

        

 

以上是关于强化学习专栏|蒙特卡洛法(Monte Carlo Methods)的主要内容,如果未能解决你的问题,请参考以下文章

蒙特卡罗(Monte Carlo) 模拟

ML-17-1MCMC--蒙特卡罗方法(Monte Carlo)

(转)Monte Carlo method 蒙特卡洛方法

蒙特卡洛(Monte Carlo)方法求面积

蒙特卡洛(Monte Carlo)方法计算π

蒙特卡洛(Monte Carlo)方法计算π