强化学习7日打卡营-世界冠军带你从零实践--基于表格型方法的 RL

Posted 2020-12-12 parkin

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了强化学习7日打卡营-世界冠军带你从零实践--基于表格型方法的 RL相关的知识，希望对你有一定的参考价值。

强化学习 Reinforce Learning

强化学习区别于机器学习的一点是，强化学习是来做决策的。根据环境的反馈，做出决策。外界环境情况复杂，和环境的交互主要有环境的状态 stat、智能体的动作、和对动作带来收益的评价 reward。

这里面涉及2个对象，agent 和 env。 agent 根据环境状态做出动作即决策，环境env根据 agent 当前的状态和动作，返回下一个状态。循环往复，直到环境给出结束的状态。

在算法实践里，环境 env 是人为设计好的，这个需要精心的构造，来反映客观世界的环境。学习者不用关心这部分，有现成的一些环境供实验。

这里介绍的表格型算法，主要解决的是有限状态和有限动作的情况。这方面典型算法 SARSA 和 QLearning 。

Sarsa （state-action-reward-state‘-action‘）

Sarsa 是 On Policy 算法，学习特定 stat 、action 下的价值 Q，最终建立一个 Q 表格，stat 行、action 列。

根据与环境交互得到的 reward 来更新 Q 表格。

Q 表格更新公式： Q(S_t,A_t) = Q(S_t,A_t) + α * [ R_t+1 +γ * Q(S_t+1,A_t+1) - Q(S_t, A_t)]

Rt+1 来自与环境对(S_t,A_t)得奖励。

SARSA 在行动中学习。只有1个 Policy ，使用了两次 greedy-epsilon 选出 Q(S_t,A_t) 和 Q(S_t+1,A_t+1)。

Q Learninng

Q learning 是 Off Policy 算法

更新 Q 表格得公式：

Q(S_t,A_t) = Q(S_t,A_t) + α * [ R_t+1 +γ * max ( Q(S_t+1, : ) ) - Q(S_t, A_t)]

SARSA 和 Q learning 差别仅在下一步的 Q(S_t+1, A_t+1) 计算这里不一样。

关于算法主要有2点：

1. Q 表格更新看似是需要用到下一个动作和状态的奖励，似乎是个迭代的过程，如何计算？

当前的价值要由当前（S_t，A_t）和（S_t+1,A_t+1）的价值来确定，这样迭代下去不就是追溯到结束才能算出第一个动作的价值。其实这里做了简化处理，初始化 Q 表格后，确定性的动作和状态知道后就知道价值了，所以不用考虑那么长远，即 next_obs,reward = env.step(action) ，再根据 next_obs, 根据策略选择（有一定几率随机）next_action, 然后查 next_q 。

2. 什么是 on Policy 和 off Policy ?

知乎@三笠 On Policy 与 off Policy 的区别在于：更新价值所使用的方法沿着既定的策略（on Policy）抑或是新策略（off Policy）。

Sarsa 当前的Q是是基于既定策略， next_Q选择也是基于按既定策略多走一步得到的 Q。(这里有一定概率不是当前最优的。)

而Q learning，当前动作的 Q 既定策略的（有一定随机概率），但 next_Q 直接选 max(Q(next_obs,:)) 最优的, 不选随机的项。

以上是关于强化学习7日打卡营-世界冠军带你从零实践--基于表格型方法的 RL的主要内容，如果未能解决你的问题，请参考以下文章

强化学习从PG到PPO（基于百度飞桨PaddlePaddle+PARL）

强化学习7日打卡营--使用gym游戏的预处理

华为云技术分享华为开发者大会HDC.Cloud带你探索强化学习三大挑战及落地实践

百度飞桨图神经网络7日打卡营学习心得

Flappy Paddle现身江湖！使用强化学习DQN让你划船划到停不下来

从零开始Q-Learning，用强化学习教出租车接送乘客