Policy-based Approach(基于策略的方法)

Posted 2020-11-28 wyf

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了Policy-based Approach(基于策略的方法)相关的知识，希望对你有一定的参考价值。

step 1:Neural Network as Actor

step 2:goodness of function(训练一些Actor)

是一个序列，包含T个状态s、行为a、奖励s。代表某一次的开始到结束的过程。

是一个奖励和，全部episode从开始到结束的总reward。

是某一设定好的参数获得的总平均奖励

用策略去玩N次游戏获得N个，则从概率中进行采样。

step 3:pick the best function(找到最好的一个Actor)

方法：Gradient Ascent

即最大化，用Gradient Ascent方法寻找使最大的

添加偏置

这里的有可能总是正数，加上一个偏置b即可，b可以自己设，一个较简单的设法取每个的平均值。

如果相减还是得到一个正数则可以提高该行为的概率，否则降低该行为的概率

以上是关于Policy-based Approach(基于策略的方法)的主要内容，如果未能解决你的问题，请参考以下文章

Policy-based design设计模式

Policy-Based Method RL

Policy-Based Method RL

Tungsten Fabric SDN — Service Chain — Basic Service Chain and Policy-Based Steering

Tungsten Fabric SDN — Service Chain — Basic Service Chain and Policy-Based Steering

Segmentation-Based Deep-Learning Approach for Surface-Defect Detection-论文阅读笔记