强化学习之MDP

Posted yqpy

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了强化学习之MDP相关的知识,希望对你有一定的参考价值。

前言

最近又入坑RL了,要搞AutoML就要学会RL,真的是心累。。

正文

MDP里面比较重要的就是状态值函数和动作-状态值函数吧,然后再求最优状态值函数和最优动作状态值函数,状态值函数的公式推导一开始不懂,卡在了一个地方,现在记下来,

很关键的一个在于“和的期望等于期望的和

技术图片

以上是关于强化学习之MDP的主要内容,如果未能解决你的问题,请参考以下文章

机器学习笔记(21):强化学习之动态规划

强化学习之Q-learning简介

强化学习(David Silver)2:MDP(马尔科夫决策过程)

强化学习:初识

通俗易懂谈强化学习之Q-Learning算法实战

机器学习应用——强化学习&课程总结 实例 “自主学习Flappy Bird游戏”(MDP&蒙特卡洛强化学习&Q-learning&DRL&DQN)