ChatGPT通俗笔记:从GPT-NRL之PPO算法到instructGPTChatGPT

Posted v_JULY_v

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了ChatGPT通俗笔记:从GPT-NRL之PPO算法到instructGPTChatGPT相关的知识,希望对你有一定的参考价值。

前言 

自从我那篇BERT通俗笔记一经发布,然后就不断改、不断找人寻求反馈、不断改,其中一位朋友倪老师(之前我司NLP高级班学员现课程助教老师之一)在谬赞BERT笔记无懈可击的同时,给我建议到,“后面估计可以尝试尝试在BERT的基础上,讲一讲prompt学习了”,然后我就看了下prompt学习,一看果然牛..

再然后,当我还在各种改BERT笔记的时候,12月初突然出来了一个ChatGPT刷爆朋友圈,即便很多之前不接触AI的朋友也在问ChatGPT这种类似聊天机器人却远胜一般聊天机器人各种问题(上一次出现这种盛况的还是16年的AlphaGo)。

据我观察,大家问ChatGPT的问题千奇百怪,比如给他任意一段代码,要求它解释或添加对应的注释(这可不是单纯的翻译问题,需要有类似人的提炼、概括、总结能力),甚至有人让其根据要求排查代码bug,要知道此前debug想寻求帮助

  • 要么问人(问熟人用社交软件,问陌生人则类似那种问答网站,持续问一般得付费,毕竟没人乐意持续免费答疑大量技术难题)
  • 要么Google搜有没人遇到类似的问题(但别人遇到的问题很难与你的百分百一致)

所以ChatGPT就相当于你写代码或各类问题的私人顾问,而这个私人顾问能瞬间、精准理解你的意图,不会让你像用以前那种聊天机器人经常觉得智障甚至对牛弹琴,加之其背后依托的是人类级百科全书式的资料库,所以有人惊呼:ChatGPT会不会替代Google这类搜索引擎。

虽然大部分技术者对待ChatGPT还是比较冷静的,毕竟它给的答案不像权威技术专家那样具备足够的公信力,也不像Google给出来源从而不能比较好的验证其正确程度(注意我这里的措辞:“不能比较好的”、“正确程度”,^_^),但最近遇到的几件事改变了我的一些看法

  1. 这两天我刷到一条新闻:微软欲用 ChatGPT 扶必应“上位”,对抗 Google,导致即便很多技术从业者也不一定淡定了,当然,依然会有不少人始终淡定如一
  2. ChatGPT直接让其所在的公司OpenAI估值翻倍,而我司七月在线的最新一期NLP大课,NLP11也加入了ChatGPT的原理解析
  3. 因为ChatGPT太火,技术朋友经常会转发一些解释ChatGPT原理的资料,目前看到的资料里,先不说英文原始论文,中文资料里,现在各方面的知识、书籍、课程、资料很多,但真正能让人一看就懂的非常非常少
  4. 当少数文章具备比较好的可读性之后,你又会发现一旦涉及算法细节就千篇一律的泛泛而谈,如果不是泛泛而谈的,则更多堆砌概念和公式,总之中文资料里,可能因为instructGPT/ChatGPT刚出来不久的缘故,兼顾可读性和细节性的文章少的可怜

本篇ChatGPT笔记会全力做到,通俗易懂且循序渐进(尽最大努力让每一个初学者哪怕是文科生都能没有障碍的读懂每一字一句、每一个概念、每一个公式,另,本文配图均来自文末的参考文献,可以认为是针对文末参考文献的学习笔记)

  • 一方面,对于想了解ChatGPT背后原理和如何发展而来的,逐一阐述从GPT/GPT2/GPT3到强化学习、PPO算法,最后再到instructGPT、ChatGPT、SeqGAN
    且本文之前,99%的文章都不会把PPO算法从头推到尾,本文会把PPO从零推到尾,按照“RL-策略梯度-重要性采样(重要性权重)-TRPO(增加信任区域和KL散度约束)-PPO(解决TRPO计算量大的问题)”的顺序逐步介绍每一步推导(此部分内容核心参考自Easy RL教程,但为让初学者更好懂,倪老师帮拆解了部分公式)
  • 二方面,为彻底照顾初学者,本文会解释/说明清楚每一个公式甚至符号,包括推导过程中不省任何一个必要的中间推导步骤,以及必要的背景知识,十步推导绝不略成三步

本笔记从1.6日开始写(1.15日完成初稿,之后反复修改,春节期间基本成型,预计1月底完全成型,届时质量将是1.15日初稿的1.5-2倍),ChatGPT之后,再下一篇笔记应该是强化学习极简入门了。

第一部分 从GPT/GPT2到GPT3:微调到prompt学习的过渡

1.1 GPT:基于Transformer Decoder预训练 + 微调/Finetune

在上一篇BERT笔记中,我们已经了解到:GPT是“Generative Pre-Training”的简称,从名字看其含义是指的生成式的预训练。

GPT也采用两阶段过程,第一个阶段是利用语言模型进行预训练,第二阶段通过Fine-tuning的模式解决下游任务。 

下图展示了GPT的预训练过程,其实和ELMO是类似的,主要不同在于两点:

  1. 首先,特征抽取器不是用的LSTM,而是用的Transformer,毕竟它的特征抽取能力要强于LSTM,这个选择很明显是很明智的;
  2. 其次,GPT的预训练虽然仍然是以语言模型作为目标任务,但是采用的是单向的语言模型

有两点值得提一下

  • 作为侧重生成式任务的GPT选择了Transformer Decoder部分作为核心架构(Decoder具备文本生成能力,故GPT在Transformer Decoder的基础上搭建语言模型Transformer Block:前馈神经网络feed forward + 自注意力机制self attention + 求和与归一化的前置LN层 + 残差)
  • 关于Transformer 原理细节可以参看上一篇笔记BERT笔记(介绍的很细致),至于GPT的代码实现,网上有不少资料可以参看,比如GitHub

1.2 GPT2:舍弃微调,直接干zero-short learning

很多同学一看到DL,便会想到大数据,而数据量一大,还用CPU处理的话很可能训练一个小任务都得半天,而如果用GPU跑,可能一两分钟就出来了。于此,在深度学习大火的那几年,特别是AlphaGo出来的16年起,我司七月在线便分别为VIP、AI系统大课、在职提升大课、求职/论文/申博/留学1V1辅导提供GPU云平台进行实战训练。

然很多情况下,高质量数据的获取是比较困难的,比如医疗数据,那怎么办呢?既然暂时改变不了高质量数据匮乏的现状,那就改变模型! 如此,让模型能从少量样本中学习规律并具备推理能力便显得至关重要了。

最终,针对小样本/零样本的N-shotLearning应运而生,分为如下三种

  • Zero-shot Learning (零样本学习),是指在没有任何训练样本进行微调训练的情况下,让预训练语言模型完成特定任务
  • One shot Learning (单样本学习),顾名思义,是指在一个训练样本进行微调训练的情况下,预训练语言模型完成特定任务
  • Few-shot Learning (少样本或小样本学习),类似的,是指在只有少量样本进行微调训练的情况下,预训练语言模型完成特定任务

而GPT-2不再使用二阶段训练模式(预训练+微调),而是彻底放弃了微调阶段,仅通过大规模多领域的数据预训练,让模型在Zero-shot Learming的设置下自己学会解决多任务的问题,而且效果还不错(虽然GPT2通过Zero-shot Learming在有些任务的表现上尚且还不如SOTA模型,但基本超越了一些简单模型,说明潜力巨大),你说神不神奇?

而GPT2在GPT1的基础上规模更大、模型更复杂。至于小样本学习的具体应用可以看下参考文献6。

1.3 GPT3:开启NLP新范式prompt从而实现小样本学习

GPT3简单来说,就是规模大、有钱多金、效果出奇好,具体而言,它的参数规模达到了1750亿,并且使用45TB数据进行训练,其预训练任务就是“句子接龙”,给定前文持续预测下一个字,而且只要有少量的文本数据就能作为模型的训练数据。

总之,只需将自然语言的提示信息(prompt)和任务示例(demonstration)作为上下文输入给GPT-3,它就可以在零样本或小样本的情况下执行任何NLP任务,包括所谓的完形填空任务,比如举个例子

比如,假如我要判断“我喜欢这个电影" 这句话的情感(“正面" 或者 "负面"),原有的任务形式是把他看成一个分类问题

输入:我喜欢这个电影

输出:“正面" 或者 "负面"

而如果用Prompt Learning去解决的话,任务可以变成“完形填空",

输入:我喜欢这个电影,整体上来看,这是一个 __ 的电影

输出:“有趣的" 或者 "无聊的"


言外之意即是,即便是面对完形填空似的任务,也能很好的解决

正因为GPT3首次把模型的规模带到了千亿级别,开辟了大模型赛道,其次也为NLP带来了一种新的范式prompt,prompt为GPT3带来了0样本、单样本、小样本的学习能力。而且更为关键的是,在小样本的情况下,其性能表现一度超越SOTA模型。

可想而知,prompt learning在GPT3中起到了一种极其关键的作用。 以什么是 Prompt, 字面上来讲,Prompt 就是提示:
例如我们有人忘记了某个事情,我们给予特定的提示,他就可以想起来,例如我们说:

白日依山尽,

大家自然而然地会想起来下一句诗:黄河入海流。

亦或者,搜索引擎,可以根据我们的输入,进行输出的提示:

那么在NLP中 Prompt 代表的是什么呢? prompt 就是给 预训练语言模型 的一个线索/提示,帮助它可以更好的理解人类的问题。

更多细节参见参考文献7。

 为形象描述,举一个GPT-3在只有少量样本下的机器翻译使用范例,如下图

  • 图中右侧是普通模型微调的过程,模型通过大量训练预料进行训练,然后基于特定的任务数据进行梯度迭代更新(gradient update),训练至收敛后的模型才具备良好的翻译能力
  • 图中左侧是GPT3分别在0样本(只给出任务描述)、单样本(只给出任务描述+一个翻译样本)、小样本(给出任务描述+少量样本)的情况下所展示出的能力,即便是小样本的情况下,也远少于微调过程所需要的训练数据
    说白了,就是在同等训练数据下,GPT的性能远高于微调模式的SOTA模型

至此,我们对比下Fine-tuning和prompt learning的区别就是从Pre-train、Fine-tune到Pre-train、Prompt、Predict的过程

  • Fine-tuning中:是预训练语言模型“迁就“各种下游任务。具体体现就是通过引入各种辅助任务loss,将其添加到预训练模型中,然后继续pre-training,以便让其更加适配下游任务。总之,这个过程中,预训练语言模型做出了更多的牺牲
  • Prompting中,是各种下游任务“迁就“预训练语言模型。我们需要对不同任务进行重构,使得它达到适配预训练语言模型的效果。总之,这个过程中,是下游任务做出了更多的牺牲

1.4 GPT3.5:爆火ChatGPT所基于的GPT模型

考虑到下文要讲的instructGPT和ChatGPT分别预计GPT3、GPT3.5,所以本文还得再讲下GPT3.5相比GPT3的差别。

粗略的讲,GPT-3.5 模型使用与 GPT-3 相同的预训练数据集,但进行了额外的微调,从而更擅长以下两点

  1. 更擅长上下文学习、对话
  2. 可以生成更加符合人类期待的反馈(或者说模型与人类对齐),例如:零样本问答、生成安全和公正的对话回复、拒绝超出模型它知识范围的问题

考虑到本文的主旨核心ChatGPT用到了RLHF和PPO,所以本文的第二部分将从强化学习讲到PPO算法。

第二部分 ChatGPT中的几个RL关键概念:从策略梯度到PPO算法

2.1 强化学习必须掌握的基础

2.1.1 什么是强化学习

强化学习里面的概念、公式,相比ML/DL特别多,初学者刚学RL时,很容易被接连不断的概念、公式给绕晕,而且经常忘记概念与公式符号表达的一一对应,为此,我建议学习RL的第一步就是一定要扎实关于RL的一些最基本的概念、公式(不要在扎实基础的阶段图快或图囵吞枣,不然后面得花更多的时间、更大的代价去弥补),且把概念与公式的一一对应关系牢记于心,这很重要。

当然,为最大限度的提高本文的可读性,我会尽可能的多举例、多配图。

但RL之外,像高等数学里的什么叫导数、多元函数、偏导数、以及AI一些最基本的概念比如损失函数、梯度/梯度下降等,可以直接Wikipedia上查看相关概念,本文则不赘述了,毕竟可以为通俗而增加篇幅,但不为了介绍而介绍式的增加篇幅,避免影响完读率,^_^。话休絮烦,下面开始正题。

强化学习(reinforcement learning,RL),基于智能体(agent)在复杂、不确定的环境(environment)中最大化它能获得的奖励,从而达到自主决策的目的。

经典的强化学习模型可以总结为下图的形式(你可以理解为任何强化学习都包含这几个基本部分:智能体、行为、环境、状态、奖励):

一般的文章在介绍这些概念时很容易一带而过,这里我把每个概念都逐一解释下

  • Agent,一般译为智能体,就是我们要训练的模型,类似玩超级玛丽的时候操纵马里奥做出相应的动作,而这个马里奥就是Agent
  • action(简记为),玩超级玛丽的时候你会控制马里奥做三个动作,即向左走、向右走和向上跳,而马里奥做的这三个动作就是action
  • Environment,即环境,它是提供reward的某个对象,它可以是AlphaGo中的人类棋手,也可以是自动驾驶中的人类驾驶员,甚至可以是某些游戏AI里的游戏规则
  • reward(简记为),这个奖赏可以类比为在明确目标的情况下,接近目标意味着做得好则奖,远离目标意味着做的不好则惩,最终达到收益/奖励最大化,且这个奖励是强化学习的核心
  • State(简介为),可以理解成状态或环境状态

总的而言,Agent通过感知环境Environment从而获取环境的状态state,进而依据策略决策从而执行动作action,最后得到奖励reward,然后再继续按此流程“感知状态-依据策略执行动作-得到奖励”循环进行。

另外,有两点值得一提

  • 第一,不同状态出现的概率不一样(比如明天是天晴还是下雨不一定,即便看了天气预报也只是预测大概率是天晴而已),同一状态下执行不同动作的概率也不一样(比如即便在明天是天晴的概率下,你大概率不会带伞,但依然不排除你可能会防止突然下雨而带伞)
  • 第二,另外,值得一提的是,人的一言一行会受到评估好优化言行,对于智能体也类似,比如有状态则有对状态的评估,有状态下执行的动作则有对状态下执行动作的评估,那怎么评估状态的价值、怎么评估状态下动作的价值呢?
    于此,也就出来了所谓的状态价值函数、动作价值函数

    最终一切评估结合奖励,毕竟我们的目的是需要最大化奖励,从而不断采取最优的策略,所谓最优策略就是在同一环境或不同环境下采取的最佳动作实践

进一步,具体而言,“感知状态-依据策略执行动作-得到奖励”的整个过程分为两步

  • 第一步,它会根据当前状态State来采取动作action
    我们会通过“状态价值函数”对当前状态进行评估,用表示状态在策略下的价值
    其中,采取什么样的动作就涉及到策略policy策略函数可以表述为函数(当然,这里的跟圆周率没半毛钱关系),从而可得,意味着输入状态,策略函数输出动作
    此外,还会有这样的表述,,在输入状态确定的情况下,输出的动作只和后面的参数有关,这个就是策略函数的参数

    再比如这种,而这相当于输入一个状态下,智能体采取某个动作的概率,这个啥意思呢?意思是在状态确定之下,智能体采取不同动作的概率是不同的,比如当到了中午吃饭的时刻但家里没有食材了,这个时候你可能有50%的概率去买食材,也可能有30%的概率直接订外卖,最后有20%的概率到冰箱里随便找点吃的
  • 第二步,记录被反馈的奖励reward,以便下次再到相同状态时能采取更优的动作
    所谓奖励reward是指我们在当前状态采取了某个动作,可以得到多大的奖励
    奖励函数是状态和动作的函数,即,如果和这个公式结合起来,就是,当然,当前状态的奖励一般看平均值即期望:

    此外,实际中,因为一个状态可以得到的奖励是持久的(只是越往后某个事给的回报率越低,也即奖励因子越小,用折扣因子表示)
    举个例子,一个少年在面对“上大学、去打工、在家啃老”这三种状态,哪一种更能实现人生的价值呢?
    相信很多人为长远发展都会选择上大学,因为身边有太多人因为上了大学,而好事连连,比如读研读博留学深造、进入大厂、娶个漂亮老婆、生个聪明孩子
    当然了,上大学好处肯定多多,但上大学这个状态对上面4件好事所给予的贡献必然是逐级降低,毕竟越往后,越会有更多或更重要的因素成就后面的好事,总不能因为所有好事都百分百归功于最开头选择了“上大学”这个状态/决策嘛

    且即便同一种状态下,不同策略下也会采取不同的动作,比如我希望最短时间内把柴砍完,如果我鼠目寸光可能会选择不磨刀直接砍,看似一开始柴被一个个劈开了 好像很快,但因为刀口有绣,实际全部砍完可能花了30分钟,但如果我明白磨刀不误砍柴工,则我可能花了1分钟磨刀,然后再用10分钟就把柴砍完了
    这就涉及到“动作价值函数”对动作的评估,可以用表示为状态在策略下选取动作的价值,这就是大名鼎鼎的函数,得到函数后,进入某个状态要采取的最优动作便可以通过Q函数得到,即

2.1.2 RL与监督学习的区别和RL方法的分类

此外,RL和监督学习(supervised learning)的区别:

  • 监督学习有标签告诉算法什么样的输入对应着什么样的输出(譬如分类、回归等问题,一开始的分类不准没关系,通过建立损失函数+反向传播不断调整优化)
    所以对于监督学习,目标是找到一个最优的模型函数,使其在训练数据集上最小化一个给定的损失函数,相当于最小化预测误差
    最优模型 = arg minE_(特征,标签)-数据分布 [损失函数(标签,模型(特征)]

    RL没有标签告诉它在某种情况下应该做出什么样的行为,只有一个做出一系列行为后最终反馈回来的reward,然后判断当前选择的行为是好是坏
    相当于RL的目标是最大化智能体策略在和动态环境交互过程中的价值,而策略的价值可以等价转换成奖励函数在策略的占用度量期望,即最大化累计下来的奖励期望
    最优策略 = arg maxE(状态,动作)-策略的占用度量 [奖励函数(状态,动作)]

    注,所谓占用度量是为了衡量一个智能体决策与动态环境的交互过程中,采样到一个具体的动作状态对(state-action pair)的概率分布
  • 监督学习如果做了比较坏的选择则会立刻反馈给算法
    RL的结果反馈有延时,有时候可能需要走了很多步以后才知道之前某步的选择是好还是坏
  • 监督学习中输入是独立分布的,即各项数据之间没有关联
    RL面对的输入总是在变化,每当算法做出一个行为,它就影响了下一次决策的输入

进一步,RL为得到最优策略从而获取最大化奖励,有

  • 基于值函数的方法,通过求解一个状态或者状态下某个动作的估值为手段,从而寻找最佳的价值函数,找到价值函数后,再提取最佳策略
    比如Q-learning、DQN等,适合离散的环境下,比如围棋和某些游戏领域

    BTW,因为本文主旨ChatGPT用的RL算法是PPO,和Q-learning没有最直接的联系,所以本文不阐述Q-learning,但下一篇笔记强化学习极简入门会仔细讲
  • 基于策略的方法,一般先进行策略评估,即对当前已经搜索到的策略函数进行估值,得到估值后,进行策略改进,不断重复这两步直至策略收敛

    比如策略梯度法:PG算法policy gradient,适合连续动作的场景,比如机器人控制领域
    以及Actor-Criti(一般被翻译为演员-评委算法),既学习价值函数,有学习策略函数,不过,Actor-Criti本质上是属于基于策略的算法,毕竟算法的目标是优化一个带参数的策略,只是会额外学习价值函数,从而帮助策略函数更好的学习

    此外,还有对策略梯度算法的改进,比如TRPO算法、PPO算法,当然也有的文章会把PPO算法称之为是一种Actor-Critic架构,本文会重点阐述

2.1.3 RL的两个关键概念:马尔科夫、KL散度

RL通常是一个马尔科夫决策过程,但何谓马尔科夫呢?据强化学习2一书的第47页所说

在马尔科夫决策过程中,的每个可能的值出现的概率只取决于前一个状态和前一个动作,并且与更早之前的状态和动作完全无关,这个限制不是针对决策过程,而是针对状态的,状态必须包括过去智能体和环境交互的方方面面的信息,这些信息会对未来产生一定影响,这样,状态就被认为具有马尔科夫性。

换言之,下一步的状态取决于当前的状态以及当前采取的动作。它由状态转移概率和奖励函数两个部分组成

  • 状态转移概率即
  • 奖励函数即

当我们有了策略、价值函数和模型3个组成部分后,就形成了一个马尔可夫决策过程(Markov decision process)。如下图所示,这个决策过程可视化了状态之间的转移以及采取的动作。

接下来,再介绍下KL散度,KL 散度衡量两个数据分布之间的差异。

我们将其重新用于衡量两个分布之间的差异

那么我们如何限制政策变化以确保我们不会做出错误的决定呢?事实证明我们可以找到一个下界函数 M作为

 其中等于

2.3 策略梯度与其两个问题:采样效率低下与步长难以确定

2.3.1 什么是策略梯度

本节推导的核心内容参考自Easy RL教程等资料。另,都说多一个公式则少一个读者,本文要打破这点,虽然本节推导很多,但每一步推导都有介绍到,不会省略任何一步推导,故不用担心看不懂(对本文任何内容有任何问题,都欢迎随时留言评论)。

策略梯度的核心算法思想是:参数为的策略接受状态,输出动作概率分布,在动作概率分布中采样动作,执行动作(形成运动轨迹),得到奖励,跳到下一个状态。在这样的步骤下,我们可以使用策略收集一批样本,然后使用梯度下降算法学习这些样本,不过当策略的参数更新后,这些样本不能继续被使用,还要重新使用策略与环境互动收集数据。类似下图所示(下图以及本节大部分配图/公式均来自easy RL教程)

接下来,详细阐述。首先,我们已经知道了策略函数可以如此表示:,如何评价策略的好坏呢?

假设机器人在策略的决策下,形成如下的运动轨迹(类似你玩三国争霸时,你控制角色在各种不同的游戏画面/场景/状态下作出一系列动作,而当完成了系统布置的某个任务时则会得到系统给的奖励,如此,运动轨迹用  表示,从而表示为一个状态、动作、奖励值不断迁移的过程) 

给定智能体或演员的参数,我们可以计算某一条轨迹发生的概率为

那策略的评价函数便可以设为(以为参数的策略的条件下,产生一系列奖励值,且为客观综合起见,最终取的是多个策略的平均值,即总奖励的数学期望

其中,可以理解为一个我们所熟知的神经网络

  • 当你对神经网络有所了解的话,你一定知道通过梯度下降求解损失函数的极小值(忘了的,可以复习下:首先通过正向传播产生拟合值,与标签值做“差”计算,产生误差值,然后对误差值求和产生损失函数,最后对损失函数用梯度下降法求极小值,而优化的对象就是神经网络的参数
  • 类比到这个问题上,我们现在是正向传播产生动作,然后动作在环境中产生奖励值,通过奖励值求和产生评价函数,气氛都到这了,此时是不可以针对评价函数做梯度上升(gradient ascent)呢?毕竟能求极小值,便能求极大值,正如误差能最小化,奖励/得分就能最大化

好手段,接下来我们把上面的改写一下。由于每一个轨迹  都有一个概率,所以我们要计算总奖励便得穷举所有可能的轨迹 ,然后对所有出现的概率进行加权并求和出总期望值:

上述整个过程如下图所示

通过上文我们已经知道,想让奖励越大越好,可以使用梯度上升来最大化期望奖励。而要进行梯度上升,我们先要计算期望奖励 的梯度

我们对 做梯度运算(其中,只有 与  有关。Em,忘了什么是梯度的,可以通过这个梯度的Wikipedia页面复习下)

考虑到,可得

从而进一步转化,可得

Em,怎么来的?别急,具体推导是,第一步 先分母分子都乘以一个,第二步 把上面公式代入计算,第三步 做个简单转换

然不巧的是,期望值 无法计算,所以我们只能用采样的方式采样 N 个并计算每一个的值,再把每一个的值加起来,如此得到梯度,即

任何必要的中间推导步骤咱不能省,所以还是要说明下。即,其中的具体计算过程是

完美!我们可以直观地理解上面的梯度计算公式

  1. 即在我们采样到的数据里面,采样到在某一个状态 要执行某一个动作是在整个轨迹的里面的某一个状态和动作的对
  2. 假设我们在执行,最后发现的奖励是正的,我们就要增加在  执行 的概率。反之,如果在执行  会导致  的奖励变成负的, 我们就要减少在  执行  的概率。这怎么实现呢?
  3. 我们用梯度上升来更新参数,原来有一个参数,把  加上梯度,当然我们要有一个学习率 ,学习率也是要调整的,可用 Adam、RMSProp 等方法来调整学习率,即

 总之,至此,我们已经得到了的梯度计算的公式


有一点值得说明的是...,为了提高可读性,还是举个例子来说明吧。

比如到80/90后上大学时喜欢玩的另一个游戏CF(即cross fire,10多年前我在东华理工的时候也经常玩这个,另一个是DNF),虽然玩的是同一个主题比如沙漠战场,但你每场的发挥是不一样的,即便玩到同一个地方(比如A区埋雷的地方),你也可能会控制角色用不同的策略做出不同的动作,比如

  • 在第一场游戏里面,我们在状态采取动作 ,在状态采取动作 。且你在同样的状态​下,不是每次都会采取动作​的,所以我们要记录,在状态  采取 、在状态  采取 等,整场游戏结束以后,得到的奖励是 
  • 在第二场游戏里面,在状态采取​,在状态 采取 ,我们采样到的就是,得到的奖励是

这时我们就可以把采样到的数据用梯度计算公式把梯度算出来

  1. 也就是把每一个的对拿进来,计算在某一个状态下采取某一个动作的对数概率,对这个概率取梯度
  2. 然后在梯度前面乘一个权重,权重就是这场游戏的奖励,这也是和一般分类问题的区别所在
  3. 计算出梯度后,就可以通过更新模型了 

2.3.2 重要性采样:解决策略梯度采样效率低下

策略梯度有个问题,在于 是对策略  采样的轨迹  求期望。一旦更新了参数,从  变成  ,在对应状态s下采取动作的概率  就不对了,之前采样的数据也不能用了。 换言之,策略梯度是一个会花很多时间来采样数据的算法,其大多数时间都在采样数据。智能体与环境交互以后,接下来就要更新参数,我们只能更新参数一次,然后就要重新采样数据, 才能再次更新参数。

这显然是非常花时间的,怎么解决这个问题呢?

首先,我们先来明确两个概念:

  • 如果要学习的智能体和与环境交互的智能体是相同的,我们称之为同策略
  • 如果要学习的智能体和与环境交互的智能体不是相同的,我们称之为异策略

回到策略梯度这个采样到的数据只能使用一次的问题,是否可以把同策略模式转变成异策略模式呢?

  1. 想要从同策略变成异策略,这样就可以用另外一个策略、另外一个演员与环境交互(被固定了),用采样到的数据去训练
  2. 假设我们可以用 采样到的数据去训练,我们可以多次使用采样到的数据,可以多次执行梯度上升(gradient ascent),可以多次更新参数, 都只需要用采样到的同一批数据

这个过程具体的做法就叫重要性采样,即通过使用另外一种分布,来逼近所求分布的一种方法。

2.3.3 解决重要性采样两个分布差异大的问题:加上重要性权重

在上节,为解决梯度计算采样效率低下的问题,我们使用了重要性采样,但重要性采样还有另一个问题。

具体什么问题呢,为更好的说明这个问题,我们先通过一个例子回顾下重要性采样。

假设有一个函数需要从分布中采样,我们应该如何怎么计算𝑓(𝑥)的期望值呢?

如果分布不能做积分,那么只能从分布尽可能多采样更多的,然后全都代入到,取它的平均值就可以得到近似𝑓(𝑥)的期望值:

恩,那万一不能在分布中采样数据,而只能从另外一个分布中去采样数据呢?可以是任何分布,而我们想要在中采样的的话就需要做些变换。

首先,期望值的另一种写法是,对其进行变换,如下式所示,

整理下可得(左边是分布,右边是分布):

如此,我们便就可以从里面采样 ,再计算,再取期望值。所以就算我们不能从里面采样数据,但只要能从 里面采样数据,就可以计算从  采样  然后代入 以后的期望值。 

即虽然我们可以把 换成任何的 。但是在实现上,RL极简入门:从MDPDP MC TC到Q函数策略学习PPO

ChatGPT相关技术必读论文100篇(2.27日起,几乎每天更新)

ChatGPT强化学习大杀器——近端策略优化(PPO)

类ChatGPT开源项目的部署与微调:从LLaMA到ChatGLM-6B

chatGPT笔记

强化学习从PG到PPO(基于百度飞桨PaddlePaddle+PARL)