强化学习——格子游戏问题

Posted 2022-01-26 ZhangTuTu丶

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了强化学习——格子游戏问题相关的知识，希望对你有一定的参考价值。

文章目录

前言
一、题目描述
二、计算过程

前言

这是一道2020-2021国科大高级人工智能期末考试的一道格子题

一、题目描述

每一个格子等概率向着4个方向移动，每次移动一步，收益为 -1 ，移动到出口结束游戏。若当前移动会导致出界，则移动后位置不变：
黄色是出口。

二、计算过程

1.策略评估

利用动态规划的方法求当前策略下每个格子估值

2.策略提升

根据每个格子的估值求对应的贪心策略

3.最优策略

根据第二问得到的贪心策略，列出方程组并求解

得到新的状态估值

根据新的状态估值得到新的贪心策略

根据新的贪心策略，列出在此贪心策略下的方程组

到此计算发现：v1、v2、v3、v4状态估值不变，则最优策略与其相对应状态估值如下：

以上是关于强化学习——格子游戏问题的主要内容，如果未能解决你的问题，请参考以下文章