论文笔记:FeUdal Networks for Hierarchical Reinforcement Learning
Posted UQI-LIUWJ
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了论文笔记:FeUdal Networks for Hierarchical Reinforcement Learning相关的知识,希望对你有一定的参考价值。
0 abstract & introduction
这也是一篇分层强化学习的论文。分为两层。
- Manager(上层):设置抽象的goal,这个goal传递给Worker
- 和H-DQN不同,这个goal是由Manager自己学出来的(或者说,FUN不是从一个goal集合里面选goal)
- ——>Manager和Worker之间是不传递梯度的。各自独立训练。
- ——>Manager学习找到可以最大化外部奖励(extrinsic reward)的latent goal
- Worker(下层):根据上层给定的goal,执行原子action
自上而下地生成目标,同时目标设定和目标实现是脱钩的(前者在Manager层,后者在Worker层),
这样的多层结构带来了几个好处
- 应用于非常长时间尺度上的奖励回报(很长时间之后才知道自己是对是错)
- 鼓励与Manager设定的不同目标相关的子策略的出现。
1 模型部分
1.1 整体模型
论文中提出的模型叫 FeUdal Networks (FuNs),
- 是一个CNN+一个全连接层
- 是一个全连接层
- 是一个标准的LSTM
- 是一个dilated LSTM,类比于dilated CNN,这里dilated LSTM的意思是,我喂入dilated LSTM的上一个隐层状态是r时间间隔之前的
- ——>这可以让隐藏状态h保留更长的时序信息
- 在论文中,作者将r与 goal加和的数量c 设置为一样的(10)
- 表示Manager和Worker的内部状态
- Φ是一个没有bias的线性变换,把goal gt变换成
- 在这一步线性变换中,最后的c个goal会先累加起来,然后被线性变换Φ嵌入到向量ω中
- ——>因为这样c个goal的“池化”操作,所以ω变换的很平滑
- 在这一步线性变换中,最后的c个goal会先累加起来,然后被线性变换Φ嵌入到向量ω中
- wt和Ut结合,生成策略(各个原式动作的概率)
- 是worker对于每个action的embedding
1.2 学习部分
如果我们用Worker的梯度来训练Manager的输出g,虽然也能得到一个还可以的结果,但这样就导致Manager的输出g没有任何语义上的信息——>使得它只是模型的一个潜在变量。
于是在这篇论文中,作者提出训练Manager,让他输出隐藏层的一个优势方向 。这样这个变量和Worker各个action的embedding矩阵相乘后,就是各个action的“得分”,然后经过Softmax就是各个action的选取概率。
记折扣奖励函数,Manager的状态价值函数为,是两个向量α和β的余弦相似度。
那么Manager的梯度为:
其中
注意:虽然θ的改变最终也会影响到,但是出于简化的考虑,这篇paper在计算这一步梯度的时候,不考虑s和θ之间的依赖关系。
【advantaged actor-critic】
goal的语义就是当前state在低维空间中所要改变的方向。worker的reward是前后两个step下state向量的变化方向与这个象征正确变化方向的goal的余弦相似度。
而Worker的内在奖励为
在Feudal 强化学习中,来自较低层级的reward是被完全隐藏的。在这篇论文中,采用了一种soft的方法。Worker 的目标是最大化如下的奖励函数,其中α是一个调节内部reward影响的超参数 【这里Worker和Manager的折扣因子γ可以是不一样的】
于是Worker的梯度为:
其中
2 实验部分
Montezuma’s Revenge 游戏在下面的blog中 介绍过:论文笔记:Hierarchical Deep Reinforcement Learning:Integrating Temporal Abstraction and Intrinsic_UQI-LIUWJ的博客-CSDN博客
图b是 FuN 在第一个房间学习的子目标的可视化。
对于每个时间步,我们计算潜在状态 st 和相应的目标 gt。 然后我们找到最大化的未来状态。
bar越高,表示对应的状态越频繁地 让某个先前状态的目标最大化。
以上是关于论文笔记:FeUdal Networks for Hierarchical Reinforcement Learning的主要内容,如果未能解决你的问题,请参考以下文章
pytorch 笔记: 复现论文 Stochastic Weight Completion for Road Networks using Graph Convolutional Networks(代
Feature Pyramid Networks for Object Detection(FPN)-论文阅读笔记
[论文阅读笔记] HARP Hierarchical Representation Learning for Networks
论文笔记:Stochastic Weight Completion for Road Networks using Graph Convolutional Networks
论文笔记之:Fully Convolutional Attention Localization Networks: Efficient Attention Localization for Fine
A Critical Review of Recurrent Neural Networks for Sequence Learning-论文(综述)阅读笔记