动态规划蒙特卡洛时序差分是三种解决有限马尔科夫决策的有效方法

Posted 2021-04-18 课睿诶特安得意呐维特

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了动态规划蒙特卡洛时序差分是三种解决有限马尔科夫决策的有效方法相关的知识，希望对你有一定的参考价值。

强化学习，实质是去建立一套完整合理的，具有短时及时反馈的，与长期正反馈效应的，最终目标收敛的，奖惩机制。假设当前状态之和前一个状态有关，即具有马尔科夫性，可以使用动态规划、蒙特卡洛、时序差分是三种方法来解决相关强化学习问题。

动态规划，需要对环境建立一个完整且准确的模型。利用Bellman公式迭代，需要知道两个分布，一个预估，迭代次数保证收敛即可，和样本规模没有直接关系。

蒙特卡洛不需要建立完美的模型，但不善于渐进计算。只需要直接计数。

时序差分不需要模型并且是渐进的，但分析难度大。利用Bellman公式迭代，只需要一个预估即每一步的收益，或者不需要预估，迭代次数等于样本个数。On-policy TD Control -- SARSA算法公式如下，

Q-learning和SARSA的区别可以看做计算差分的时候是否探索，可以把Q-learning迭代中的最大值Q值看做是执行了0-greedy的最优策略。

……

推荐系统的EE问题及Bandit算法。

Exploitation & Exploration，极端情况下，Exploitation每次都选择最高的mean回报的item显得过于confident，而Exploration每次都随机选择一个item显得又那么不confident。

评估指标Regret，面对多个item选择，定义累计遗憾regret为最佳回报与期望回报之差的累加和。

由于e-Greedy算法在探索是采用完全随机的策略，经常在选择一个看起来很差的item，为了改进策略，机遇已经知道的部分item的回报信息，不进行随机决策，二十使用SoftMax算法来找出回报相对较大的item。其中，T为温度参数，温度高则选择各item概率趋于随机，温度低则以更确定性的概率选择当前回报最好的item。

以上是关于动态规划蒙特卡洛时序差分是三种解决有限马尔科夫决策的有效方法的主要内容，如果未能解决你的问题，请参考以下文章