ChatGPT通俗笔记：从GPT-NRL之PPO算法到instructGPTChatGPT

Posted 2023-02-03 v_JULY_v

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了ChatGPT通俗笔记：从GPT-NRL之PPO算法到instructGPTChatGPT相关的知识，希望对你有一定的参考价值。

前言

自从我那篇BERT通俗笔记一经发布，然后就不断改、不断找人寻求反馈、不断改，其中一位朋友倪老师(之前我司NLP高级班学员现课程助教老师之一)在谬赞BERT笔记无懈可击的同时，给我建议到，“后面估计可以尝试尝试在BERT的基础上，讲一讲prompt学习了”，然后我看了下prompt学习，一看果然牛..

再然后，当我还在各种改BERT笔记的时候，12月初突然出来了一个ChatGPT刷爆朋友圈，即便很多之前不接触AI的朋友也在问ChatGPT这种类似聊天机器人却远胜一般聊天机器人各种问题(上一次出现这种盛况的还是16年的AlphaGo)。

据我观察，大家问ChatGPT的问题千奇百怪，比如给他任意一段代码，要求它解释或添加对应的注释(这可不是单纯的翻译问题，需要有类似人的提炼、概括、总结能力)，甚至有人让其根据要求排查代码bug，要知道此前debug想寻求帮助

要么问人(问熟人用社交软件，问陌生人则类似那种问答网站，持续问一般得付费，毕竟没人乐意持续免费答疑大量技术难题)
要么Google搜有没人遇到类似的问题(但别人遇到的问题很难与你的百分百一致)

所以ChatGPT就相当于你写代码或各类问题的私人顾问，而这个私人顾问能瞬间、精准理解你的意图，不会让你像用以前那种聊天机器人经常觉得智障甚至对牛弹琴，加之其背后依托的是人类级百科全书式的资料库，所以有人惊呼：ChatGPT会不会替代Google这类搜索引擎。

虽然大部分技术者对待ChatGPT还是比较冷静的，毕竟它给的答案不像权威技术专家那样具备足够的公信力，也不像Google给出来源从而不能比较好的验证其正确程度(注意我这里的措辞：“不能比较好的”、“正确程度”，^_^)，但最近遇到的几件事改变了我的一些看法

这两天我刷到一条新闻：微软欲用 ChatGPT 扶必应“上位”，对抗 Google，导致即便很多技术从业者也不一定淡定了，当然，依然会有不少人始终淡定如一
ChatGPT直接让其所在的公司OpenAI估值翻倍，而我司七月在线的最新一期NLP大课，NLP11也加入了ChatGPT的原理解析
因为ChatGPT太火，技术朋友经常会转发一些解释ChatGPT原理的资料，目前看到的资料里，先不说英文原始论文，中文资料里，现在各方面的知识、书籍、课程、资料很多，但真正能让人一看就懂的非常非常少
当少数文章具备比较好的可读性之后，你又会发现一旦涉及算法细节就千篇一律的泛泛而谈，如果不是泛泛而谈的，则更多堆砌概念和公式，总之中文资料里，可能因为instructGPT/ChatGPT刚出来不久的缘故，兼顾可读性和细节性的文章少的可怜

本篇ChatGPT笔记会全力做到，通俗易懂且循序渐进(另，本文配图均来自文末的参考文献，可以认为是针对文末参考文献的学习笔记)

一方面，对于想了解ChatGPT背后原理和如何发展而来的，逐一阐述从GPT/GPT2/GPT3到强化学习、PPO算法，最后再到instructGPT、ChatGPT
且本文之前，99%的文章都不会把PPO算法从头推到尾，本文会把PPO从零推到尾，按照“RL-策略梯度-重要性采样(重要性权重)-增加基线(避免奖励总为正)-TRPO(加进KL散度约束)-PPO(解决TRPO计算量大的问题)”的顺序逐步介绍每一步推导
二方面，为彻底照顾初学者，本文会解释/说明清楚每一个公式甚至符号，包括推导过程中不省任何一个必要的中间推导步骤，以及必要的背景知识，十步推导绝不略成三步

本笔记从1.6日开始写，1.15日完成初稿，之后反复修改(截止到2.1日已修改15轮，具体修改记录贴在本文最后)，春节期间基本成型，预计2月中旬完全成型，届时质量将是1.15日初稿的2-3倍。再之后会写一篇RL笔记：强化学习极简入门。

第一部分从GPT/GPT2到GPT3：微调到prompt学习的过渡

1.1 GPT：基于Transformer Decoder预训练 + 微调/Finetune

在上一篇BERT笔记中，我们已经了解到：GPT是“Generative Pre-Training”的简称，从名字看其含义是指的生成式的预训练。

GPT也采用两阶段过程，第一个阶段是利用语言模型进行预训练，第二阶段通过Fine-tuning的模式解决下游任务。

下图展示了GPT的预训练过程，其实和ELMO是类似的，主要不同在于两点：

首先，特征抽取器不是用的LSTM，而是用的Transformer，毕竟它的特征抽取能力要强于LSTM，这个选择很明显是很明智的；
其次，GPT的预训练虽然仍然是以语言模型作为目标任务，但是采用的是单向的语言模型

有两点值得提一下

作为侧重生成式任务的GPT选择了Transformer Decoder部分作为核心架构（Decoder具备文本生成能力，故GPT在Transformer Decoder的基础上搭建语言模型Transformer Block：前馈神经网络feed forward + 自注意力机制self attention + 求和与归一化的前置LN层 + 残差）
关于Transformer 原理细节可以参看上一篇笔记BERT笔记(如果还不了解Transformer，则务必先根据上篇BERT笔记复习下)，至于GPT的代码实现，网上有不少资料可以参看

1.2 GPT2承1启3：舍弃微调，直接干zero-short learning

1.2.1 GPT2的关键构成：Transformer-Decoder的Masked Self-Attention

依然有两点值得一提的是

GPT2和GPT1一样，也是在Transformer-Decoder的结构上搭建而成的
而其中的自注意力机制便是关键，而所谓Masked Self-Attention就是在处理当前词的时候看不到后面的词。举个例子，处理“it”的时候，注意力机制看不到“it”后面的词，但会关注到“it”前面词中的“a robot”，继而注意力会计算三个词“it”、“a”、“robot”的向量及其attention分数的加权和
更多细节可以看下上篇BERT笔记，或此文：图解注意力机制

1.2.2 GPT2舍弃微调，直接干zero-short learning

很多同学一看到DL，便会想到大数据，而数据量一大，还用CPU处理的话很可能训练一个小任务都得半天，而如果用GPU跑，可能一两分钟就出来了。于此，在深度学习大火的那几年，特别是AlphaGo出来的16年起，我司七月在线便分别为VIP、AI系统大课、在职提升大课、求职/论文/申博/留学1V1辅导提供GPU云平台进行实战训练。

然很多情况下，高质量数据的获取是比较困难的，比如医疗数据，那怎么办呢？既然暂时改变不了高质量数据匮乏的现状，那就改变模型! 如此，让模型能从少量样本中学习规律并具备推理能力便显得至关重要了。

最终，针对小样本/零样本的N-shotLearning应运而生，分为如下三种

Zero-shot Learning (零样本学习)，是指在没有任何训练样本进行微调训练的情况下，让预训练语言模型完成特定任务
One shot Learning (单样本学习)，顾名思义，是指在一个训练样本进行微调训练的情况下，预训练语言模型完成特定任务
Few-shot Learning (少样本或小样本学习)，类似的，是指在只有少量样本进行微调训练的情况下，预训练语言模型完成特定任务

而GPT-2不再使用二阶段训练模式(预训练+微调)，而是彻底放弃了微调阶段，仅通过大规模多领域的数据预训练，让模型在Zero-shot Learming的设置下自己学会解决多任务的问题，而且效果还不错(虽然GPT2通过Zero-shot Learming在有些任务的表现上尚且还不如SOTA模型，但基本超越了一些简单模型，说明潜力巨大)，你说神不神奇？

而GPT2在GPT1的基础上规模更大、模型更复杂。至于小样本学习的具体应用可以看下参考文献8。

1.3 GPT3：开启NLP新范式prompt从而实现小样本学习

GPT3简单来说，就是规模大、有钱多金、效果出奇好，具体而言，它的参数规模达到了1750亿，并且使用45TB数据进行训练，其预训练任务就是“句子接龙”，给定前文持续预测下一个字，而且只要有少量的文本数据就能作为模型的训练数据。

总之，只需将自然语言的提示信息（prompt）和任务示例（demonstration）作为上下文输入给GPT-3，它就可以在零样本或小样本的情况下执行任何NLP任务，包括所谓的完形填空任务，比如举个例子

比如，假如我要判断“我喜欢这个电影" 这句话的情感（“正面" 或者 "负面"），原有的任务形式是把他看成一个分类问题

输入：我喜欢这个电影

输出：“正面" 或者 "负面"

而如果用Prompt Learning去解决的话，任务可以变成“完形填空"，

输入：我喜欢这个电影，整体上来看，这是一个 __ 的电影

输出：“有趣的" 或者 "无聊的"

言外之意即是，即便是面对完形填空似的任务，也能很好的解决

正因为GPT3首次把模型的规模带到了千亿级别，开辟了大模型赛道，其次也为NLP带来了一种新的范式prompt，prompt为GPT3带来了0样本、单样本、小样本的学习能力。而且更为关键的是，在小样本的情况下，其性能表现一度超越SOTA模型。

可想而知，prompt learning在GPT3中起到了一种极其关键的作用。所谓Prompt就是提示的意思。
例如有人忘记了某个事情，我们给予特定的提示，他就可以想起来，例如当有人说：

白日依山尽，

大家自然而然地会想起来下一句诗：黄河入海流。

亦或者，搜索引擎，可以根据我们的输入，进行输出的提示：

那么在NLP中 Prompt 代表的是什么呢？ prompt 就是给预训练语言模型的一个线索/提示，帮助它可以更好的理解人类的问题，这一创举揭开了GPT3在对话生成领域火力全开的序幕。

为形象描述，举一个GPT-3在只有少量样本下的机器翻译使用范例，如下图

图中右侧是普通模型微调的过程，模型通过大量训练预料进行训练，然后基于特定的任务数据进行梯度迭代更新(gradient update)，训练至收敛后的模型才具备良好的翻译能力
图中左侧是GPT3分别在0样本(只给出任务描述)、单样本(只给出任务描述+一个翻译样本)、小样本(给出任务描述+少量样本)的情况下所展示出的能力，即便是小样本的情况下，也远少于微调过程所需要的训练数据
说白了，就是在同等训练数据下，GPT的性能远高于微调模式的SOTA模型

至此，我们对比下Fine-tuning和prompt learning的区别(从Pre-train、Fine-tune到Pre-train、Prompt、Predict的过程)

Fine-tuning中：是预训练语言模型“迁就“各种下游任务。具体体现就是通过引入各种辅助任务loss，将其添加到预训练模型中，然后继续pre-training，以便让其更加适配下游任务。总之，这个过程中，预训练语言模型做出了更多的牺牲
Prompting中，是各种下游任务“迁就“预训练语言模型。我们需要对不同任务进行重构，使得它达到适配预训练语言模型的效果。总之，这个过程中，是下游任务做出了更多的牺牲

1.4 GPT3.5：爆火ChatGPT所基于的GPT模型

考虑到下文要讲的instructGPT和ChatGPT分别预计GPT3、GPT3.5，所以本文还得再讲下GPT3.5相比GPT3的差别。

粗略的讲，GPT-3.5 模型使用与 GPT-3 相同的预训练数据集，但进行了额外的微调，从而更擅长以下两点

更擅长上下文学习、对话
可以生成更加符合人类期待的反馈（或者说模型与人类对齐），例如：零样本问答、生成安全和公正的对话回复、拒绝超出模型它知识范围的问题

考虑到本文的主旨核心ChatGPT用到了RLHF和PPO，所以本文的第二部分将从强化学习讲到PPO算法(当然，原计划本只是想重点介绍下PPO，但写到最后还是把PPO所有相关的前置知识都细致介绍了个遍，不然，总感觉有细节没交待而不够透彻，而即便如此还是有很多细节得放到之后的RL笔记里进一步阐述)。

第二部分从RL、策略梯度到PPO算法、逆强化学习

2.1 入门强化学习所需掌握的基本概念

2.1.1 什么是强化学习：感知状态-依据策略执行动作-得到奖励

强化学习里面的概念、公式，相比ML/DL特别多，初学者刚学RL时，很容易被接连不断的概念、公式给绕晕，而且经常忘记概念与公式符号表达的一一对应(包括我自己在1.10日之前对好多满是概念/公式的RL书完全看不下去，如今都看得懂了，故如果读文本之前，你正在被RL各种公式困扰，相信看完这篇chatGPT笔记后就完全不一样了)。

为此，我建议学习RL的第一步就是一定要扎实关于RL的一些最基本的概念、公式(不要在扎实基础的阶段图快或图囵吞枣，不然后面得花更多的时间、更大的代价去弥补)，且把概念与公式的一一对应关系牢记于心，这很重要。当然，为最大限度的提高本文的可读性，我会尽可能的多举例、多配图。

另，RL之外，像高数/概率统计里的什么叫

导数，如下图所示，导数即为

期望，如果是一个离散的随机变量，输出值为，和输出值相应的概率为，且加起来的概率和为1，若级数绝对收敛，那么期望值是一个无限数列的和：

以及什么叫概率分布、熵/香浓熵(Shannon熵)/交叉熵、相对熵(也称KL散度，即KL divergence)、多元函数、偏导数，以及AI一些最基本的概念比如损失函数、梯度、梯度下降、随机梯度下降(SGD)、学习率等，可以直接Wikipedia上查看相关概念，本文则不过多介绍。

毕竟可以为通俗而增加篇幅，但不为了介绍而介绍式的增加篇幅，避免影响完读率，^_^。话休絮烦，下面进入正题，且先直接给出强化学习的定义和其流程，然后再逐一拆解、说明。

所谓强化学习(Reinforcement Learning，简称RL)，是指基于智能体在复杂、不确定的环境中最大化它能获得的奖励，从而达到自主决策的目的。

经典的强化学习模型可以总结为下图的形式（你可以理解为任何强化学习都包含这几个基本部分：智能体、行为、环境、状态、奖励）：

一般的文章在介绍这些概念时很容易一带而过，这里我把每个概念都逐一解释下

Agent，一般译为智能体，就是我们要训练的模型，类似玩超级玛丽的时候操纵马里奥做出相应的动作，而这个马里奥就是Agent
action(简记为)，玩超级玛丽的时候你会控制马里奥做三个动作，即向左走、向右走和向上跳，而马里奥做的这三个动作就是action
Environment，即环境，它是提供reward的某个对象，它可以是AlphaGo中的人类棋手，也可以是自动驾驶中的人类驾驶员，甚至可以是某些游戏AI里的游戏规则
reward(简记为)，这个奖赏可以类比为在明确目标的情况下，接近目标意味着做得好则奖，远离目标意味着做的不好则惩，最终达到收益/奖励最大化，且这个奖励是强化学习的核心
State(简介为)，可以理解成环境的状态，简称状态

总的而言，Agent通过感知环境Environment从而获取环境的状态state，进而依据策略决策从而执行动作action，最后得到奖励reward(以便下次再到相同状态时能采取更优的动作)，然后再继续按此流程“感知状态-依据策略执行动作-得到奖励”循环进行。

可能你还有点懵懵懂懂，没关系，毕竟还有不少背景知识还没有交待，比如RL其实是一个马尔可夫决策过程(Markov decision process，MDP)，而为说清楚MDP，得先从随机过程、马尔可夫过程(Markov process，简称MP)开始讲起，故为考虑逻辑清晰，我们还是把整个继承/脉络梳理下。

2.1.2 MDP的前置知识：随机过程、马尔可夫过程、马尔可夫奖励

如HMM学习最佳范例中所说，有一类现象是确定性的现象，比如红绿灯系统，红灯之后一定是红黄、接着绿灯、黄灯，最后又红灯，每一个状态之间的变化是确定的

但还有一类现象则不是确定的，比如今天是晴天，谁也没法百分百确定明天一定是晴天还是雨天、阴天

对于这种假设具有个状态的模型

共有个状态转移，因为任何一个状态都有可能是所有状态的下一个转移状态
每一个状态转移都有一个概率值，称为状态转移概率，相当于从一个状态转移到另一个状态的概率
所有的个概率可以用一个状态转移矩阵表示

下面的状态转移矩阵显示的是天气例子中可能的状态转移概率：

也就是说，如果昨天是晴天，那么今天是晴天的概率为0.5，是多云的概率为0.375、是雨天的概率为0.125，且这三种天气状态的概率之和必为1。

接下来，我们参考《动手学强化学习》一书抽象建模下。正如概率论的研究对象是静态的随机现象，而随机过程的研究对象是随时间演变的随机现象(比如天气随时间的变化)：

随机现象在某时刻t的取值是一个向量随机变量，用表示
比如上述天气转移矩阵便如下图所示

在某时刻t的状态通常取决于t时刻之前的状态，我们将已知历史信息时下一个时刻的状态的概率表示成
如此，便可以定义一个所有状态对之间的转移概率矩阵

当且仅当某时刻的状态只取决于上一时刻的状态时，一个随机过程被称为具有马尔可夫性质，即，当然了，虽说当前状态只看上一个状态，但上一个状态其实包含了更上一个状态的信息，所以不能说当下与历史是无关的
而具有马尔可夫性质的随机过程便是马尔可夫过程

在马尔可夫过程的基础上加入奖励函数和折扣因子，就可以得到马尔可夫奖励过程(Markov reward process，MRP)。其中

奖励函数，某个状态的奖励，是指转移到该状态时可以获得奖励的期望，有
PS，有的书上奖励函数和下面回报公式中的的下标写为，其实严格来说，先有时刻的状态/动作之后才有时刻的奖励，但应用中两种下标法又都存在，读者注意辨别
此外，实际中，因为一个状态可以得到的奖励是持久的，所有奖励的衰减之和称为回报，可用表示未来所有奖励的加权和(考虑到一般越往后某个状态给的回报率越低，也即奖励因子或折扣因子越小，用表示)，从而有

举个例子，一个少年在面对“上大学、去打工、在家啃老”这三种状态，哪一种更能实现人生的价值呢？
相信很多人为长远发展都会选择上大学，因为身边有太多人因为上了大学，而好事连连，比如读研读博留学深造、进入大厂、娶个漂亮老婆、生个聪明孩子
当然了，上大学好处肯定多多，但上大学这个状态对上面4件好事所给予的贡献必然是逐级降低，毕竟越往后，越会有更多或更重要的因素成就更后面的好事，总不能所有好事都百分百归功于最开头选择了“上大学”这个状态/决策嘛

而一个状态的期望回报就称之为这个状态的价值，所有状态的价值则组成了所谓的价值函数，用公式表达为，展开一下可得

在上式最后一个等式中，前半部分，后半部分可以根据从状态出发的转移概率得到『至于上述推导的最后一步，即为何等于，在之后的RL笔记里详述』

从而，前后两个部分综合可得

而这就是所谓的贝尔曼方程(bellman equation)。其表达的含义如果简言之的话，则是评估某状态的价值就在于该状态所最终带来的期望回报，具体而言，则是当前状态的奖励，加上该状态所引起的且在折扣因子的作用下后续不同概率所对应各种状态的期望回报。

理论是比较拗口的，为形象起见，举个最简单的“吃饭-抽烟/剔牙”例子
比如你吃完饭后你自己的心情愉悦值即奖励+5，然后下一个状态，有

0.6的概率是抽烟(抽烟带来的心情愉悦值即奖励+7，要不说饭后一支烟赛过活神仙呢)
0.4的概率是剔牙(剔牙带来的奖励值+3)

假设折扣因子(上文说过了，就是一个状态对后续状态的贡献程度)为0.5，且假定

吃饭的状态定义为，则
抽烟的状态定义为，则，且由于抽烟之后无后续状态，所以也是7
剔牙的状态定义为，则，且由于剔牙之后无后续状态，所以也是3

从而有：

当从时，
当从时，

由于状态和状态没有后续状态，所以和对应的状态值函数分别为

再根据贝尔曼方程，可得状态的状态价值函数为

当然，你也可以如此计算(可以很明显的看出，计算量不如上述过程简洁，所以一般优先按上述方式计算)

上述例子的状态比较少所以计算量不大，但当状态一多，则贝尔曼方程的计算量还是比较大的，而求解较大规模的马尔可夫奖励过程中的价值函数时，可以用的方法包括：

动态规划(对的，就是我们数据结构和算法里那个dynamic programming，简称DP)，其核心思想在于复杂问题的最优解划分为多个小问题的最优解的求解问题，就像递归一样，且子问题的最优解会被储存起来重复利用
此外，DP和下面两种方法的不同在于，DP需要提前知晓环境和奖励等因素
蒙特卡洛(monte carlo，简称MC)方法，也称为统计模拟方法，就是通过大量的随机样本来估算或近似真实值，比如近似圆周率的值、近似微积分、近似期望、近似随机梯度
此外，MC算法是等到一个episode结束得到return以后再借此更新
时序差分(temporal difference，简称TD)方法，俗称无模型的RL算法，即不需要事先知道环境的奖励函数和状态转移函数(事实上，很多现实环境中其MDP的状态转移概率无从得知，也就无法直接使用DP)，而Sarsa、Q-learning就是基于时序差分的两大经典算法(细致情况在之后的RL笔记里介绍)

总的来说，TD每过一个time step就利用奖励和值函数更新一次，当然，这里所说的one-step TD 方法，也可以两步一更新，三步一更新…..(等到N步以后再更新就是MC)

举个例子简单对比下MC与TD，其实就像不同学生做题，有的学生做完全部题才问老师所有题做的对不对然后下一套试卷更新做题策略，有的学生则做完一题就问老师该题做的对不对然后下一题即更新做题策略

2.1.3 马尔可夫决策过程(MDP)：马尔可夫奖励(MRP) + 智能体动作因素

根据上文我们已经得知，在随机过程的基础上

增加马尔可夫性质，即可得马尔可夫过程
而再增加奖励，则得到了马尔可夫奖励过程(MRP)
如果我们再次增加一个来自外界的刺激比如智能体的动作，就得到了马尔可夫决策过程(MDP)
通俗讲，MRP与MDP的区别就类似随波逐流与水手划船的区别

据强化学习2一书的第47页所说

在马尔可夫决策过程中，(是状态的集合)和(是奖励的集合)的每个可能的值出现的概率只取决于前一个状态和前一个动作(是动作的集合)，并且与更早之前的状态和动作完全无关

下一步的状态(可能是)，取决于当前的状态(可能是)以及当前采取的动作(可能是)，它由状态转移概率矩阵和奖励函数两个部分组成

状态转移概率矩阵
奖励函数即

至于过程中采取什么样的动作就涉及到策略policy，策略函数可以表述为函数(当然，这里的跟圆周率没半毛钱关系)

从而可得，意味着输入状态，策略函数输出动作
此外，还会有这样的表述：，相当于在输入状态确定的情况下，输出的动作只和参数有关，这个就是策略函数的参数
再比如这种，相当于输入一个状态下，智能体采取某个动作的概率

通过上文，我们已经知道不同状态出现的概率不一样（比如今天是晴天，那明天是晴天，还是雨天、阴天不一定），同一状态下执行不同动作的概率也不一样（比如即便在天气预报预测明天大概率是天晴的情况下，你大概率不会带伞，但依然不排除你可能会防止突然下雨而带伞）

而有了动作这个因素之后，我们重新梳理下价值函数

首先，通过“状态价值函数”对当前状态进行评估
相当于从状态出发遵循策略能获得的期望回报
其次，通过“动作价值函数”对动作的评估
相当于对当前状态依据策略执行动作得到的期望回报，这就是大名鼎鼎的函数，得到函数后，进入某个状态要采取的最优动作便可以通过函数得到

当有了策略、价值函数和模型3个组成部分后，就形成了一个马尔可夫决策过程（Markov decision process）。如下图所示，这个决策过程可视化了状态之间的转移以及采取的动作。

且通过状态转移概率分布，我们可以揭示状态价值函数和动作价值函数之间的联系了

在使用策略时，状态的价值等于在该状态下基于策略采取所有动作的概率与相应的价值相乘再求和的结果

我猜可能有读者会问怎么来的，简略推导如下『至于如果不清楚从第一个等式到第二个等式怎么来的，在之后的RL笔记里详述，毕竟本文没法面面俱到，不然本文得奔着4万字去拉』
而使用策略时，在状态下采取动作的价值等于当前奖励，加上经过衰减的所有可能的下一个状态的状态转移概率与相应的价值的乘积

针对这个公式大部分资料都会一带而过，但不排除会有不少读者问怎么来的，考虑到对于数学公式咱们不能想当然靠直觉的自认为，所以还是得一五一十的推导下

其中，倒数第二步依据的是，最后一步依据的状态转移概率矩阵的定义

接下来，把上面和的计算结果互相代入，可得马尔可夫决策的贝尔曼方程

上述过程可用下图形象化表示(配图来自文献51)

计算示例和更多细节可以参看相关资料或见之后的RL笔记：RL极简入门，预计最快今年3月底发布

2.1.4 RL与监督学习的区别和RL方法的分类

此外，RL和监督学习（supervised learning）的区别：

监督学习有标签告诉算法什么样的输入对应着什么样的输出（譬如分类、回归等问题）
所以对于监督学习，目标是找到一个最优的模型函数，使其在训练数据集上最小化一个给定的损失函数，相当于最小化预测误差
最优模型 = arg minE (特征,标签)-数据分布 [损失函数(标签,模型(特征)]

RL没有标签告诉它在某种情况下应该做出什么样的行为，只有一个做出一系列行为后最终反馈回来的reward，然后判断当前选择的行为是好是坏
相当于RL的目标是最大化智能体策略在和动态环境交互过程中的价值，而策略的价值可以等价转换成奖励函数在策略的占用度量期望，即最大化累计下来的奖励期望
最优策略 = arg maxE (状态,动作)-策略的占用度量 [奖励函数(状态,动作)]

注，所谓占用度量是为了衡量一个智能体决策与动态环境的交互过程中，采样到一个具体的动作状态对(state-action pair)的概率分布
监督学习如果做了比较坏的选择则会立刻反馈给算法
RL的结果反馈有延时，有时候可能需要走了很多步以后才知道之前某步的选择是好还是坏
监督学习中输入是独立分布的，即各项数据之间没有关联
RL面对的输入总是在变化，每当算法做出一个行为，它就影响了下一次决策的输入

进一步，RL为得到最优策略从而获取最大化奖励，有

基于值函数的方法，通过求解一个状态或者状态下某个动作的估值为手段，从而寻找最佳的价值函数，找到价值函数后，再提取最佳策略
比如Q-learning、DQN等，适合离散的环境下，比如围棋和某些游戏领域
基于策略的方法，一般先进行策略评估，即对当前已经搜索到的策略函数进行估值，得到估值后，进行策略改进，不断重复这两步直至策略收敛

比如策略梯度法(policy gradient，简称PG)，适合连续动作的场景，比如机器人控制领域
以及Actor-Criti(一般被翻译为演员-评论家算法)，Actor学习参数化的策略即策略函数，Criti学习值函数用来评估状态-动作对，不过，Actor-Criti本质上是属于基于策略的算法，毕竟算法的目标是优化一个带参数的策略，只是会额外学习价值函数，从而帮助策略函数更好的学习

此外，还有对策略梯度算法的改进，比如TRPO算法、PPO算法，当然PPO算法也可称之为是一种Actor-Critic架构，本文会重点阐述

2.2 策略梯度与其两个问题：采样效率低下与步长难以确定

本节推导的核心内容参考自Easy RL教程等资料(但修正了原教程上部分不太准确的描述，且为让初学者更好懂，补充了大量的解释说明和心得理解，倪老师则帮拆解了部分公式)。

另，都说多一个公式则少一个读者，本文要打破这点，虽然本节推导很多，但每一步推导都有介绍到，不会省略任何一步推导，故不用担心看不懂(对本文任何内容有任何问题，都欢迎随时留言评论)。

2.2.1 什么是策略梯度和梯度计算/更新的流程

策略梯度的核心算法思想是：

参数为的策略接受状态，输出动作概率分布，在动作概率分布中采样动作，执行动作(形成运动轨迹)，得到奖励，跳到下一个状态
在这样的步骤下，可以使用策略收集一批样本，然后使用梯度下降算法学习这些样本，不过当策略的参数更新后，这些样本不能继续被使用，还要重新使用策略与环境互动收集数据

比如REINFORCE算法便是常见的策略梯度算法，类似下图所示(下图以及本节大部分配图/公式均来自easy RL教程)

接下来，详细阐述。首先，我们已经知道了策略函数可以如此表示：

其中，可以理解为一个我们所熟知的神经网络

当你对神经网络有所了解的话，你一定知道通过梯度下降求解损失函数的极小值（忘了的，可以复习下：首先通过正向传播产生拟合值，与标签值做“差”计算，产生误差值，然后对误差值求和产生损失函数，最后对损失函数用梯度下降法求极小值，而优化的对象就是神经网络的参数）
类比到这个问题上，现在是正向传播产生动作，然后动作在环境中产生奖励值，通过奖励值求和产生评价函数，此时可以针对评价函数做梯度上升（gradient ascent），毕竟能求极小值，便能求极大值，正如误差能最小化，奖励/得分就能最大化

如何评价策略的好坏呢？

假设机器人在策略的决策下，形成如下的运动轨迹(类似你玩三国争霸时，你控制角色在各种不同的游戏画面/场景/状态下作出一系列动作，而当完成了系统布置的某个任务时则会得到系统给的奖励，如此，运动轨迹用表示，从而表示为一个状态、动作、奖励值不断迁移的过程)

可能有读者注意到了，既然奖励是延后的，以上是关于ChatGPT通俗笔记：从GPT-NRL之PPO算法到instructGPTChatGPT的主要内容，如果未能解决你的问题，请参考以下文章