强化学习—— 离散与连续动作空间（随机策略梯度与确定策略梯度）

Posted 2022-04-16 CyrusMay

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了强化学习—— 离散与连续动作空间（随机策略梯度与确定策略梯度）相关的知识，希望对你有一定的参考价值。

1. 动作空间

离散化（discretization）：比如机械臂进行二维网格划分。假设d为连续动作空间的自由度，动作离散化后的数量会随着d的增加呈现指数增长，从而造成维度灾难。
使用确定策略梯度。
使用随机策略梯度。

观测到一个transition： $s_t,a_t,r_t,s_t+1)$
计算t时刻价值网络的函数值: $q_t = q(s_t,a_t;W)$
计算t+1时刻价值网络的函数值： $a_t+1^-=\\pi(s_t+1;\\theta)\\\\q_t+1=q(s_t+1,a_t+1^-;W)$
TD Error为： $\\delta_t=q_t-(r_t+\\gamma\\cdot q_t+1)$
更新价值网络： $W\\gets W-\\alpha\\cdot\\frac\\partial q(s_t,a_t;W)\\partial W$
更新策略网络所需的策略梯度推导： $策略网络的目标为通过策略网络a=\\pi(s;\\theta)\\\\做出的决策可以增加价值网络q=q(s,a;W)的值。\\\\ 因此确定策略梯度（deterministic policy gradient， DPG）为：\\\\ g=\\frac\\partial q(s,\\pi(s;\\theta);W)\\partial \\theta=\\frac\\partial q(s.\\pi(s;\\theta);W)\\partial \\pi(s;\\theta)\\cdot \\frac\\partial \\pi(s;\\theta)\\partial \\theta$
依据确定策略梯度进行策略网络参数更新： $g=\\frac\\partial q(s,\\pi(s;\\theta);W)\\partial \\theta=\\frac\\partial q(s.\\pi(s;\\theta);W)\\partial \\pi(s;\\theta)\\cdot \\frac\\partial \\pi(s;\\theta)\\partial \\theta\\\\ \\theta\\gets \\theta+\\beta\\cdot g$

Bootstrapping现象：