Reinforcement Learning强化学习系列之五：值近似方法Value Approximation

Posted 2023-02-24 luchi007

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了Reinforcement Learning强化学习系列之五：值近似方法Value Approximation相关的知识，希望对你有一定的参考价值。

引言

前面说到了强化学习中的蒙特卡洛方法(MC)以及时序差分(TD)的方法，这些方法针对的基本是离散的数据，而一些连续的状态则很难表示，对于这种情况，通常在强化学习里有2中方法，一种是针对value function的方法，也就是本文中提到的值近似(value approximation)；另一种则是后面要讲到的policy gradient。

值近似的方法

值近似的方法根本上是使用一个值函数来近似表示该状态的返回值，对于状态

以上是关于Reinforcement Learning强化学习系列之五：值近似方法Value Approximation的主要内容，如果未能解决你的问题，请参考以下文章

强化学习专栏——Reinforcement Learning

强化学习 Reinforcement Learning

Reinforcement Learning强化学习系列之一：model-based learning

强化学习 (Reinforcement Learning)

干货总结| Deep Reinforcement Learning 深度强化学习

Reinforcement Learning强化学习系列之三：MC Control