SARSA-Lambda 实施中的情节之间的资格跟踪重新初始化

Posted 2023-03-27

技术标签:

【中文标题】SARSA-Lambda 实施中的情节之间的资格跟踪重新初始化【英文标题】：Eligibility trace reinitialization between episodes in SARSA-Lambda implementation 【发布时间】：2015-07-06 09:49:45 【问题描述】：

我正在查看这个 SARSA-Lambda 实现（即：带有资格跟踪的 SARSA），但有一个细节我仍然不明白。

（图片来自http://webdocs.cs.ualberta.ca/~sutton/book/ebook/node77.html）

所以我知道所有 Q(s,a) 都会更新，而不仅仅是代理为给定时间步选择的一个。我也知道 E 矩阵不会在每集开始时重置。

让我们假设图 7.12 的面板 3 是第 1 集的结束状态。

在第 2 集开始时，代理向北移动而不是向东移动，我们假设这给了它 -500 的奖励。这不会影响上一集中访问过的所有状态吗？

如果这个想法是为了奖励在当前情节中访问过的那些状态，那么为什么包含所有 e(s,a) 值的矩阵不在每个情节开始时重置？在这个实现中，上一集中访问过的状态似乎会因为代理在新一集中所做的操作而受到“惩罚”或“奖励”。

【问题讨论】：

这在该书的最新版本中得到了纠正。 【参考方案1】：

我 100% 同意你的看法。未能在每集开始时重置电子矩阵正是您所描述的问题。 据我所知，这是伪代码中的错误。您引用的参考文献非常受欢迎，因此该错误已传播到许多其他参考文献。但是，this well-cited paper 非常明确地指出，应该在剧集之间重新初始化 e-matrix：