什么是蒙特卡洛学习,时序差分算法

Posted 香菜+

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了什么是蒙特卡洛学习,时序差分算法相关的知识,希望对你有一定的参考价值。

在学习的过程中经常会看到蒙卡特洛和时序差分算法,到底这两个是指什么,今天稍微整理下,开始吧。

    • 蒙卡特洛

1.1 蒙卡特洛方法

蒙特卡罗方法又叫做统计模拟方法,它使用随机数(或伪随机数)来解决计算问题。

比如上图,矩形的面积我们可以轻松得到,但是对于阴影部分的面积,我们积分是比较困难的。所以为了计算阴影部分的面积,我们可以在矩形上均匀地撒豆子,然后统计在阴影部分的豆子数占总的豆子数的比例,就可以估算出阴影部分的面积

以上是关于什么是蒙特卡洛学习,时序差分算法的主要内容,如果未能解决你的问题,请参考以下文章

什么是蒙特卡洛学习,时序差分算法

什么是蒙特卡洛学习,时序差分算法

强化学习读书手札:动态规划(DP)&蒙特卡洛(MC)&时序差分(TD)区别

强化学习用时序差分法(TD)求解

强化学习阶段总结

动态规划蒙特卡洛时序差分是三种解决有限马尔科夫决策的有效方法