强化学习⚠️手把手带你走进强化学习 1⚠️ 强化学习简介
Posted 我是小白呀
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了强化学习⚠️手把手带你走进强化学习 1⚠️ 强化学习简介相关的知识,希望对你有一定的参考价值。
概述
从今天开始我们会开启一个新的篇章, 带领大家来一起学习 (卷进) 强化学习 (Reinforcement Learning). 强化学习基于环境, 分析数据采取行动, 从而最大化未来收益.
机器学习的分类
- 监督学习: 通过给定的标签和数据进行学习
- 非监督学习: 没有标签, 没有明确目的学习方式
- 强化学习: 没有标签, 但是有奖励信号, 介于监督和非监督之间
为什么要学强化学习
首先, 在小白我看来, 强化学习是最接近我们人类的学习过程. 例如: 当我们在爬山的时候多次摔的头破血流, 几次以后我们就会吸取经验, 在以后爬山的时候就会记得穿鞋, 而不是光着脚.
其次, 强化学习在很多领域都有应用. 我们熟知的 AlphaGo 就是利用深度强化学习, 用短短三天的训练, 领悟了人类远超数千年累计的围棋知识. 强化学习还在游戏, 无人驾驶, 机器控制等多个领域有大范围的运用.
强化学习的组成
- 智能体 (Agent): 可以感知环境的状态, 并根据反馈的奖励学习选择一个合适的动作, 来最大化长期总收益
- 策略 (Policy): 定义了智能体的行为, 是从状态到行为的一个映射
- 值函数 (Value Function): 是对未来奖励的预测, 用来评价当前状态的好坏程度
- 模型 (Model): 用于预测环境变化, 有利于智能体决定下一步的行动
- 环境 (Environment): 环境会接受智能体执行的一系列动作, 对这一些类动作进行评价并转换为一种可量化的信号反馈给智能体
以上是关于强化学习⚠️手把手带你走进强化学习 1⚠️ 强化学习简介的主要内容,如果未能解决你的问题,请参考以下文章
强化学习⚠️手把手带你走进强化学习 2⚠️ OPP 算法实现月球登陆器
强化学习⚠️手把手带你走进强化学习 2⚠️ OPP 算法实现月球登陆器 (PyTorch 版)
强化学习⚠️手把手带你走进强化学习 3⚠️ OPP 算法实现月球登陆器 (Tensorflow2 版)