第四章 动态规划:代码

Posted 人工智能之强化学习

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了第四章 动态规划:代码相关的知识,希望对你有一定的参考价值。

这一节集中于两种同步动态规划的实践部分,文章按照 算法伪代码 算法实现 总结 这样的安排展开。
一 算法伪代码 (此处以书中第一个伪代码-策略评估为例)


二 算法实现
  实现的问题对应对于书中格子世界,实现的语言是python,在jupyter Notebook中完成代码编写,每个函数表示的含义以注释形式表示,代码有参考GitHub中相关材料。

第四章 动态规划(二):代码


代码编辑时设置了一个获取某一状态所有后续可能状态的集合的方法,体现了动态规划算法思想的地方。如果无法获取一个状态的所有可能后续状态,那么就不能使用动态规划算法来求解,此外,使用的是异步更新价值的方法。

三 总结
在每个状态集中实现完全更新在小数据集上比较有效果,当数据集过大时便会出现 维数灾难 问题,同时动态规划算法是基于 有模型的条件下 进行迭代的,当出现的强化学习问题是无模型的时,便需要另一种方法,即蒙特卡洛法,下一节将对这个方法进行学习。


以上是关于第四章 动态规划:代码的主要内容,如果未能解决你的问题,请参考以下文章

每日练习第四章:动态规划——例题精选

增强学习笔记 第四章 动态规划

强化学习用动态规划(DP)求解

动态规划:leetcode题库第四十四题

答案解析第四章:动态规划

树形动态规划 fjutoj-2131 第四集,聚集城市