强化学习核心概念区分

Posted mishidemudong

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了强化学习核心概念区分相关的知识,希望对你有一定的参考价值。

1. 区分强化学习/有监督学习/无监督学习
- 这是三种不同的训练方式,核心区别在于loss的设计。
- 三者可用于同一 task,就像锤子和砍刀都可以用于砸钉子。
- task 选用哪一种工具,取决于获取 loss 所需数据的性价比。比如风格转移,使用Discriminator 判断 sample 是否属于目标域,显然优于一一标记数据集后进行有监督学习。

2. 区分 Return(s,a) 和 reward(s,a)
- reward(s,a) 是 environment 在状态s下,对行为a的单步奖励值。
- Return(s,a) 是 在状态s下,对往后n步的奖励值的组合。
-- n 0, 1, ....
-- 组合方式常用discounting, 详见 Sutton 书 3.3章。

3. 区分 Return,Q , V (value)和A(Advantage)
- Q(s,a) == Return(s,a)
-
-
-- 用A值更新policy会更稳定

4. 区分 policy 和 Q/V/A
- 在状态 s 下,policy 选出用于与环境交互的行为 a。
- policy 选择行为 a 的依据是 Q(s,a) / V(s') ( 在状态 s 下执行 a 后转移到状态 s')
--- policy 1: argmax(Q(s,a))
--- policy 2: sample from distribution
- Q(s,a) / A(s,a) / V(s') 的更新依赖于policy

5. 区分MC, DP, n-steps TD, GAE
-- DP 是已知 s,a->s'的状态转移概率,直接计算被估计值
-- MC 和 TD 都是通过采样估计值

-- MC 估计的样本全部来自采样,n-step TD 估计在第n步时使用估计值

 

以上是关于强化学习核心概念区分的主要内容,如果未能解决你的问题,请参考以下文章

强化学习核心概念区分

强化学习介绍

近端策略优化深度强化学习算法

强化学习第七章

强化学习七 - Policy Gradient Methods

一些常用的机器学习算法实现