西瓜书《机器学习》课后答案——chapter16_强化学习
Posted Vic时代
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了西瓜书《机器学习》课后答案——chapter16_强化学习相关的知识,希望对你有一定的参考价值。
1.用于K-摇臂赌博机的UCB(Upper Confidence Bound)方法每次选择 Q(k)+UC(k) 最大的摇臂,其中 Q(k) 为摇臂k当前的平均奖赏, UC(k) 为置信区间。例如:
Q(k)+2lnnnk−−−−−√
其中,n为已执行所有摇臂的总次数, nk 为已执行摇臂k的次数。比较UCB方法与 ϵ -贪心法和Softmax方法的异同。
解答:
ϵ
-贪心:
- 在时刻
t
,为每个行为估计平均奖赏
- 以
1−ϵ
的概率选择最大奖赏对应的行为
- 以 ϵ 的概率等概率地从所有行为中选择一个
ϵ -贪心每次随机选择一个行为进行探索,没有对优质行为进行更多探索;另外如果一个行为已经执行很多次了,那么没有必要再对它进行探索了。
Softmax:
- 在时刻
t
,为每个行为估计平均奖赏
- 以下面的概率分布选择行为
Softmax方法平均奖励比较高的行为有更高的概率被选中。
UCB:
- 在时刻
t
,为每个行为估计平均奖赏
- 选择
Qt(a)+UCt(a)
最大的那个行为
UCB中的 UCt(a) 是 Qt(a) 的置信区间。当一个行为执行次数比较少时,对应的 UC(a) 比较大,即置信区间比较大,意味着 Q(a) 不确定;当一个行为执行次数比较多时,对应的 UC(a) 比较小,即置信区间比较小,意味着 Q(a) 更准确。UCB每次探索的是不确定性高的行为。
参考:
https://www.cs.princeton.edu/courses/archive/fall16/cos402/lectures/402-lec22.pdf
2.借鉴图16.7,试写出基于
γ
折扣奖赏函数的策略评估算法。
解答:
书中对奖赏的定义和Sutton的书中(或者David Silver的课程)定义的不同。
西瓜书:
Rax→x′
表示从状态
x
采取行为
Sutton书: Ras=E[Rt+1|St=西瓜书《机器学习》课后答案——Chapter1