LIRD(Deep Reinforcement Learning for List-wise Recommendations)论文算法解读

Posted 2021-08-24 白水baishui

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了LIRD(Deep Reinforcement Learning for List-wise Recommendations)论文算法解读相关的知识，希望对你有一定的参考价值。

Deep Reinforcement Learning for List-wise Recommendations

文章目录

1. 论文所解决的问题

构建了一个在线的用户-Agent交互环境模拟器，该模拟器适用于模拟在线推荐系统，以在离线的情况下对参数进行预训练和评估；
提出了一个基于深度强化学习推荐框架：LIRD（LIst-wise Recommendation framework based on
Deep reinforcement learning），该框架适用于具有大型动态项空间的推荐场景，并可显著地降低计算量；
在真实的电子商务数据集中验证了所提出框架的有效性，并验证了列表式推荐对精准推荐的重要性。

2. 交互模型

LIRD算法中用户与推荐系统的交互模型是基于MDP模型建立的： $MDP=(S,A,P,R,\\gamma)$ 主要包含以下几个参数变量：

$S$ : State space
$S=\\{s_1,s_2,...,s_t,...,s_T\\},s_t=\\{s_t^1,s_t^2,...,s_t^N\\}$ ，即状态空间，定义为用户的历史浏览记录，即用户在时间 $t$ 之前浏览的前 $N$ 个项目。 $s_t$ (session)中的浏览项按时间顺序排序；
$A$ : Action space
$A=\\{a_1,a_2,...,a_t,...,a_T\\},a_t=\\{a_t^1,a_t^2,...,a_t^K\\}$ ，即动作空间，是当前状态 $s_t$ 向用户推荐的推荐列表，其中 $K$ 是RA(Recommender Agent)每次推荐用户的项的数量；
$R$ : Reward
$R=r(s_t,a_t)$ ，即立即反馈值，RA在 $s_t$ 时推荐了项目列表 $a_t$ 后，即向用户推荐项目列表后，用户会浏览这些其中的项目并提供反馈。用户可以跳过（不点击）、点击或订购其中的项目，RA将根据用户的反馈获得立即反馈。
$P$ : Transition probability
$P=p(s_{t+1}|s_t,a_t)$ ，即状态转移概率，定义为RA推荐项目列表 $a_t$ 后从状态 $s_t$ 转移到 $s_{t+1}$ 的概率。 $P$ 满足MDP的定义，即： $P=p(s_{t+1}|s_t,a_t,s_{t-1},a_{t-1}...,s_1,a_1)=p(s_{t+1}|s_t,a_t)$ 如果用户在状态 $s_t$ 时不点击任何 $a_t$ 中的项目，则下一个状态 $s_{t+1}=s_t$ ；如果用户点击、订购项目列表 $a_t$ 中的项目，则下一个状态 $s_{t+1}$ 将进行更新。
$\\gamma$ : Discount factor
$\\gamma\\in[0,1]$ ，即折扣因子，定义为对未来奖励的现值的折扣系数。当 $\\gamma=0$ 时，RA只计算立即反馈；当 $\\gamma=1$ 时，未来所有的反馈都被完全计入在 $a_t$ 中。

3. 交互模拟器

说明：
交互模拟器用于模拟在线状态时的用户与推荐系统的交互数据。在线情况时，给定当前状态 $s_t$ ，RA(Recommender Agent)向用户推荐一个项目列表 $a_t$ ，用户浏览对 $a_t$ 中的项目 $a_t^i$ 做出反馈(跳过、点击、订购等)。RA会根据用户的反馈获得立即反馈 $r(s_t，a_t)$