西瓜书《机器学习》课后答案——chapter16_强化学习

Posted Vic时代

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了西瓜书《机器学习》课后答案——chapter16_强化学习相关的知识,希望对你有一定的参考价值。

1.用于K-摇臂赌博机的UCB(Upper Confidence Bound)方法每次选择 Q(k)+UC(k) 最大的摇臂,其中 Q(k) 为摇臂k当前的平均奖赏, UC(k) 为置信区间。例如:

Q(k)+2lnnnk

其中,n为已执行所有摇臂的总次数, nk 为已执行摇臂k的次数。比较UCB方法与 ϵ -贪心法和Softmax方法的异同。

解答:

ϵ -贪心:
- 在时刻 t ,为每个行为估计平均奖赏Qt(a)
- 以 1ϵ 的概率选择最大奖赏对应的行为

At=argmaxaQt(a)
- 以 ϵ 的概率等概率地从所有行为中选择一个

ϵ -贪心每次随机选择一个行为进行探索,没有对优质行为进行更多探索;另外如果一个行为已经执行很多次了,那么没有必要再对它进行探索了。

Softmax:
- 在时刻 t ,为每个行为估计平均奖赏Qt(a)
- 以下面的概率分布选择行为

P(a)=eQt(a)τKi=1eQt(i)τ

Softmax方法平均奖励比较高的行为有更高的概率被选中。

UCB:
- 在时刻 t ,为每个行为估计平均奖赏Qt(a)以及 UCt(a)
- 选择 Qt(a)+UCt(a) 最大的那个行为

UCB中的 UCt(a) Qt(a) 的置信区间。当一个行为执行次数比较少时,对应的 UC(a) 比较大,即置信区间比较大,意味着 Q(a) 不确定;当一个行为执行次数比较多时,对应的 UC(a) 比较小,即置信区间比较小,意味着 Q(a) 更准确。UCB每次探索的是不确定性高的行为。

参考:
https://www.cs.princeton.edu/courses/archive/fall16/cos402/lectures/402-lec22.pdf

2.借鉴图16.7,试写出基于 γ 折扣奖赏函数的策略评估算法。
解答:
书中对奖赏的定义和Sutton的书中(或者David Silver的课程)定义的不同。
西瓜书: Raxx 表示从状态 x 采取行为a转移到状态 x 得到的奖励。

Sutton书: Ras=E[Rt+1|St=西瓜书《机器学习》课后答案——Chapter1

西瓜书《机器学习》课后答案——chapter14

西瓜书《机器学习》课后答案——Chapter3

《机器学习》 --周志华版(西瓜书)--课后参考答案

《机器学习》 周志华版(西瓜书)--课后参考答案

课程作业西瓜书 机器学习课后习题 : 第六章