零基础强化学习强化学习中的有模型和无模型

Posted 南城果宝

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了零基础强化学习强化学习中的有模型和无模型相关的知识,希望对你有一定的参考价值。


更多代码: gitee主页:https://gitee.com/GZHzzz
博客主页CSDN:https://blog.csdn.net/gzhzzaa

写在前面

作为一个新手,写这个强化学习-基础知识专栏是想和大家分享一下自己强化学习的学习历程,希望大家互相交流一起进步。希望自己在2022年能保证把强化学习基础概念都过一遍,主要是成体系介绍强化学习的基础知识,在gitee收集了强化学习经典论文基于pytorch的经典模型 ,大家一起互相学习啊!可能会有很多错漏,希望大家批评指正!不要高估一年的努力,也不要低估十年的积累,与君共勉!

关于Planning 与 Learning

  • Learning 和 Planning 是序列决策的两个基本问题。
    • 在强化学习中,环境初始时是未知的,agent 不知道环境如何工作,agent 通过不断地与环境交互,逐渐改进策略。

    • 在 plannning 中,环境是已知的,我们被告知了整个环境的运作规则的详细信息。
      Agent 能够计算出一个完美的模型,并且在不需要与环境进行任何交互的时候进行计算。Agent 不需要实时地与环境交互就能知道未来环境,只需要知道当前的状态,就能够开始思考,来寻找最优解。
      在这个游戏中,规则是制定的(可能是动态的),我们知道选择 left 之后环境将会产生什么变化。我们完全可以通过已知的变化规则,来在内部进行模拟整个决策过程,无需与环境交互。

关于有模型和无模型

  • 我们说的模型就是环境,对环境的了解
    • 有模型就是指知道环境转移函数,学习问题就变成的规划问题(比如有条件的动态规划),也叫model-based

    • 无模型就是不知道环境模型,只能用神经网络近似环境模型,所以强化学习的出现主要就是解决传统规划不能做的事

    • 当然也有基于模型的强化学习算法(论文很多),本质上是加“约束”的强化学习

    • 一个常用的强化学习问题解决思路是,先学习环境如何工作,也就是了解环境工作的方式,即学习得到一个模型,然后利用这个模型进行规划。

写在最后

十年磨剑,与君共勉!
更多代码gitee主页:https://gitee.com/GZHzzz
博客主页CSDN:https://blog.csdn.net/gzhzzaa

  • Fighting!😎

while True:
	Go life

谢谢点赞交流!(❁´◡`❁)

以上是关于零基础强化学习强化学习中的有模型和无模型的主要内容,如果未能解决你的问题,请参考以下文章

Keras深度学习实战(42)——强化学习基础

深度强化学习 DQN 模型解析,附Pytorch完整代码

经典书统计强化学习:现代机器学习方法,206页pdf

我的强化学习模型不收敛这件事!

强化学习笔记4:强化学习分类

强化学习70年演进:从精确动态规划到基于模型