增量式强化学习

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了增量式强化学习相关的知识,希望对你有一定的参考价值。

线性逼近:

相比较于非线性逼近,线性逼近的好处是只有一个最优值,因此可以收敛到全局最优。其中技术分享为状态s处的特征函数,或者称为基函数。

常用的基函数的类型为:

技术分享

增量式方法参数更新过程随机性比较大,尽管计算简单,但样本数据的利用效率并不高。而批的方法,尽管计算复杂,但计算效率高。

 

批处理方法:

技术分享

 

 

深度强化学习:

Q-learning方法是异策略时序差分方法。其伪代码为:

技术分享

 

离策略:是指行动策略(产生数据的策略)和要评估的策略不是一个策略。在图Q-learning 伪代码中,行动策略(产生数据的策略)是第5行的\\varepsilon -greedy策略,而要评估和改进的策略是第6行的贪婪策略(每个状态取值函数最大的那个动作)。

所谓时间差分方法,是指利用时间差分目标来更新当前行为值函数。在图1.1 Q-learning伪代码中,时间差分目标为技术分享

 

以上是关于增量式强化学习的主要内容,如果未能解决你的问题,请参考以下文章

强化学习1-1-0 强化学习介绍强化学习1-1-0 强化学习介绍

强化学习⚠️手把手带你走进强化学习 1⚠️ 强化学习简介

强化学习⚠️手把手带你走进强化学习 1⚠️ 强化学习简介

强化学习专栏|什么是强化学习?强化学习的内容有哪些?

强化学习、深度学习和深度强化学习有啥区别?

深度学习和深度强化学习的区别