强化学习理论知识整理汇总

Posted zstar-_

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了强化学习理论知识整理汇总相关的知识,希望对你有一定的参考价值。

前言

本篇旨在总结强化学习相关术语,主要参考了邹伟等人所著的《强化学习》(清华大学出版社)这本书。

策略

在状态s下执行动作a的概率。
π ( a ∣ s ) = P ( A t = a ∣ S t = s ) \\pi(a \\mid s)=P\\left(A_t=a \\mid S_t=s\\right) π(as)=P(At=aSt=s)
确定性策略:输出动作a为确定的一个动作。
随机性策略:输出动作a多个动作的概率分布。

预测与控制

预测(评估):评估当前的策略有多好,即求解既定策略下的状态值函数。
控制(改善):改善当前策略,即求解所有可能策略中最优价值函数及最优策略。

贝尔曼方程

状态值函数

状态值函数指从状态s开始,遵循当前策略 π \\pi π时所获得的期望回报。
V π ( s ) = E π [ G t ∣ S t = s ] = E π [ R t + 1 + γ R t + 2 + ⋯ ∣ S t = s ] V_\\pi(s)=E_\\pi\\left[G_t \\mid S_t=s\\right]=E_\\pi\\left[R_t+1+\\gamma R_t+2+\\cdots \\mid S_t=s\\right] Vπ(s)=Eπ[GtSt=s]=Eπ[Rt+1+γRt+2+St=s]
通过下面的推导,可以将其化成迭代形式:
V π ( s ) = E π [ G t ∣ S t = s ] = E π [ R t + 1 + γ R t + 2 + γ 2 R t + 3 + ⋯ ∣ S t = s ] = E π [ R t + 1 + γ ( R t + 2 + γ R t + 3 + ⋯   ) ∣ S t = s ] = E π [ R t + 1 + γ G t + 1 ∣ S t = s ] = E π [ R t + 1 + γ V ( S t + 1 ) ∣ S t = s ] \\beginaligned V_\\pi(s) &=E_\\pi\\left[G_t \\mid S_t=s\\right] \\\\ &=E_\\pi\\left[R_t+1+\\gamma R_t+2+\\gamma^2 R_t+3+\\cdots \\mid S_t=s\\right] \\\\ &=E_\\pi\\left[R_t+1+\\gamma\\left(R_t+2+\\gamma R_t+3+\\cdots\\right) \\mid S_t=s\\right] \\\\ &=E_\\pi\\left[R_t+1+\\gamma G_t+1 \\mid S_t=s\\right] \\\\ &=E_\\pi\\left[R_t+1+\\gamma V\\left(S_t+1\\right) \\mid S_t=s\\right] \\endaligned Vπ(s)=Eπ[GtSt=s]=Eπ[Rt+1+γRt+2+γ2Rt+3+St=s]=Eπ[Rt+1+γ(Rt+2+γRt+3+)St=s]=Eπ[Rt+1+γGt+1St=s]=Eπ[Rt+1+γV(St+1)St=s]

动作值函数

和状态值函数类似,动作值函数在状态s下多了一个选择动作a。
Q π ( s , a ) = E π [ G t ∣ S t = s , A t = a ] = E π [ R t + 1 + γ Q π ( S t + 1 , A t + 1 ) ∣ S t = s , A t = a ] \\beginaligned Q_\\pi(s, a) &=E_\\pi\\left[G_t \\mid S_t=s, A_t=a\\right] \\\\ &=E_\\pi\\left[R_t+1+\\gamma Q_\\pi\\left(S_t+1, A_t+1\\right) \\mid S_t=s, A_t=a\\right] \\endaligned Qπ(s,a)=Eπ[GtSt=s,At=a]=Eπ[Rt+1+γQπ(St+1,At+1)St=s,At=a]

贝尔曼期望方程

贝尔曼期望方程有四种表达方式。(其实就是将一个迭代图进行了拆分)

(1)基于状态s,采取动作a,求 V π ( s ) V_\\pi(s) Vπ(s)
V π ( s ) = ∑ a ∈ A π ( a ∣ s ) Q π ( s ,

以上是关于强化学习理论知识整理汇总的主要内容,如果未能解决你的问题,请参考以下文章

Python自动化办公知识点整理汇总

最优化知识笔记整理汇总

强化学习——入门

深度强化学习 如何训练

论文阅读强化学习与知识图谱关系路径发现

论文阅读强化学习与知识图谱关系路径发现