西瓜书《机器学习》课后答案——chapter16_强化学习

Posted 2022-12-05 Vic时代

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了西瓜书《机器学习》课后答案——chapter16_强化学习相关的知识，希望对你有一定的参考价值。

1.用于K-摇臂赌博机的UCB（Upper Confidence Bound）方法每次选择 $Q(k)+UC(k)$ 最大的摇臂，其中 $Q(k)$ 为摇臂k当前的平均奖赏， $UC(k)$ 为置信区间。例如：

Q(k)+2lnnnk−−−−−√ $Q(k)+ \\sqrt\\frac2\\ln nn_k$

其中，n为已执行所有摇臂的总次数， $n_k$ 为已执行摇臂k的次数。比较UCB方法与 $\\epsilon$ -贪心法和Softmax方法的异同。

解答：

$\\epsilon$ -贪心：
- 在时刻 $t$ ，为每个行为估计平均奖赏 $Q_t(a)$
- 以 $1-\\epsilon$ 的概率选择最大奖赏对应的行为

At=argmaxaQt(a) $A_t = \\arg \\max_a Q_t(a)$
- 以

ϵ $\\epsilon$ 的概率等概率地从所有行为中选择一个

$\\epsilon$ -贪心每次随机选择一个行为进行探索，没有对优质行为进行更多探索；另外如果一个行为已经执行很多次了，那么没有必要再对它进行探索了。

Softmax：
- 在时刻 $t$ ，为每个行为估计平均奖赏 $Q_t(a)$
- 以下面的概率分布选择行为

P(a)=eQt(a)τ∑Ki=1eQt(i)τ $P(a) = \\frace^\\fracQ_t(a)\\tau\\sum_i=1^K e^\\fracQ_t(i)\\tau$

Softmax方法平均奖励比较高的行为有更高的概率被选中。

UCB：
- 在时刻 $t$ ，为每个行为估计平均奖赏 $Q_t(a)$ 以及 $UC_t(a)$
- 选择 $Q_t(a)+ UC_t(a)$ 最大的那个行为

UCB中的 $UC_t(a)$ 是 $Q_t(a)$ 的置信区间。当一个行为执行次数比较少时，对应的 $UC(a)$ 比较大，即置信区间比较大，意味着 $Q(a)$ 不确定；当一个行为执行次数比较多时，对应的 $UC(a)$ 比较小，即置信区间比较小，意味着 $Q(a)$ 更准确。UCB每次探索的是不确定性高的行为。

参考：
https://www.cs.princeton.edu/courses/archive/fall16/cos402/lectures/402-lec22.pdf

2.借鉴图16.7，试写出基于 $\\gamma$ 折扣奖赏函数的策略评估算法。
解答：
书中对奖赏的定义和Sutton的书中（或者David Silver的课程）定义的不同。
西瓜书： $R_x\\rightarrow x\'^a$ 表示从状态 $x$ 采取行为 $a$ 转移到状态 $x\'$ 得到的奖励。

Sutton书： Ras=E[Rt+1|St=