强化学习——格子游戏问题

Posted ZhangTuTu丶

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了强化学习——格子游戏问题相关的知识,希望对你有一定的参考价值。


前言

这是一道2020-2021国科大高级人工智能期末考试的一道格子题


一、题目描述

每一个格子等概率向着4个方向移动,每次移动一步,收益为 -1 ,移动到出口结束游戏。若当前移动会导致出界,则移动后位置不变:
黄色是出口。

二、计算过程

1.策略评估

利用动态规划的方法求当前策略下每个格子估值

2.策略提升

根据每个格子的估值求对应的贪心策略

3.最优策略

根据第二问得到的贪心策略,列出方程组并求解

得到新的状态估值

根据新的状态估值得到新的贪心策略

根据新的贪心策略,列出在此贪心策略下的方程组

到此计算发现:v1、v2、v3、v4状态估值不变,则最优策略与其相对应状态估值如下:

以上是关于强化学习——格子游戏问题的主要内容,如果未能解决你的问题,请参考以下文章

强化学习-策略迭代代码实现

强化学习 - Q-learning Sarsa 和 DQN 的理解

网络流强化-HDU 3338-上下界限制最大流

Hulu机器学习问题与解答系列 | 第八弹:强化学习

深度强化学习制作森林冰火人游戏AI识别游戏状态

强化学习 车杆游戏