cs231n spring 2017 lecture14 Reinforcement Learning 听课笔记

Posted 2020-10-17 ZonghaoChen

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了cs231n spring 2017 lecture14 Reinforcement Learning 听课笔记相关的知识，希望对你有一定的参考价值。

（没太听明白，下次重新听）

1. 增强学习

　　有一个 Agent 和 Environment 交互。在 t 时刻，Agent 获知状态是 s_t，做出动作是 a_t；Environment 一方面给出 Reward 信号 r_t，另一方面改变状态至 s_t+1；Agent 获得 r_t和 s_t+1。目标是 Agent 学习 s_t到 a_t的某种映射 π* 最大化累积的 Reward，∑γ^tr_t，其中 γ^t是折现系数（discount factor）。

　　用Markov Decision Process描述RL problem。马尔可夫过程是拥有马尔可夫性质的过程。马尔可夫性质：未来的状态仅依赖当前状态，或者说该过程没有记忆特质。

以上是关于cs231n spring 2017 lecture14 Reinforcement Learning 听课笔记的主要内容，如果未能解决你的问题，请参考以下文章

cs231n spring 2017 lecture9 听课笔记

cs231n spring 2017 lecture3 听课笔记

cs231n spring 2017 lecture7 听课笔记

cs231n spring 2017 lecture4 听课笔记

cs231n spring 2017 lecture8 听课笔记

cs231n spring 2017 lecture12 听课笔记