李宏毅老师2020年深度学习系列讲座笔记1

Posted ViviranZ

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了李宏毅老师2020年深度学习系列讲座笔记1相关的知识,希望对你有一定的参考价值。

瞎看吧。。。。至少做个笔记

https://www.bilibili.com/video/BV1UE411G78S?from=search&seid=11796990666136537025

AI=RL+DL?

agent-接受state(不是系统状态,而是environment的state,可以理解为observation)-做出action-action影响environment-由于对环境造成了影响可以得到reward

 

一句话本质:agent learns to take actions to maximize expected reward.

 

应用范围:游戏、自动驾驶、chat-box等(人工智障??)

 

难点:

1.【远见】reward是delay的,agent需要有远见。比如在游戏里不能一直开火要移动,移动短时间内没有reward,但是为了未来的优化需要这么做

2.【探索】agent的行为可以影响environment,agent需要有探索能力。比如在游戏里不能总是移动,需要尝试开火。

 

常用method的思路:

actor=policy

action=\\pi (observation) 通过reward帮助我们找到这个\\pi

 

步骤:

  a.决定函数空间长什么样子:

  ---神经网路:输入的是观察得到的向量,通过不同层得到向量

  b.决定判断函数好坏的标准

  ---看output和model像不像:loss function

重点:

1.episode=trajectory

2.每个不同的trajectory都会有reward,但是我们想要一个综合起来更好的,因此使用期望R_\\theta,但是本身RL应对的问题就是episode过多(否则给一个表格直接算出每一个episode(策略)对应的reward一个一个对照查表就行了),因此我们以多次实验代表总体(大数定律保证其科学性)

c.找到最优的函数

常用方法:梯度下降法

主要思路是为了得到最优的函数值对应的\\theta,首先找一个初始值\\theta_0,然后向着目标函数R在\\theta_0处的切线方向移动\\eta步长,经过数次转向后到达。

(可以爬山类比,每一时刻向着搜索到的最陡的方向爬1米,经过多个循环爬到山顶)

接下来四页是推导得到最后用于计算的方程,并生成思路。

其实我们完全不需要知道R(\\tao)具体是什么,实际上它与environment有关,比如在游戏里可能有随机性,我们只需要给一个\\theta能算这个gradient就可以,因此我们把这个问题转换为求log的gradient。

由于很多项都是由environment决定,因此在求log的gradient的时候只有这个求和式子。

tips:

1.并不是哪个action好就是决定是它了,而是调整参数使得这个action的几率变大(因为需要保证一定的探索性,不能一叶障目一条路走到黑--不让AI一直开火也要有左右移动的概率)。

2.why log?

实际上会偏向出现次数比较多的action,要让machine更专注于reward大而不是概率大的,因此需要做一个normalization。

本来是想通过除以概率实现normalization,但是由于本身采用方法是sampling(采样),因此可能本身就没有随机到a导致生成的a的概率很小,因此我们统一减去一个bias。

设置baseline保证只有reward高过这条线的action才会被增加概率。(如果不设置的话所有的行为的reward都是非负的,所以machine可能会错误认为增加这些action的概率都会增大reward。)

*critic和Q-learning有关,后面会讲到不做赘述。

(actor-critic方法)+(critic和actor可以一起train)

结论:

以上是关于李宏毅老师2020年深度学习系列讲座笔记1的主要内容,如果未能解决你的问题,请参考以下文章

李宏毅老师2020年深度学习系列讲座笔记2

李宏毅老师2020年深度学习系列讲座笔记4

李宏毅老师2020年深度学习系列讲座笔记8

李宏毅老师2020年深度学习系列讲座笔记5

李宏毅老师2020年深度学习系列讲座笔记9

李宏毅老师2020年深度学习系列讲座笔记7