LIRD(Deep Reinforcement Learning for List-wise Recommendations)论文算法解读

Posted 白水baishui

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了LIRD(Deep Reinforcement Learning for List-wise Recommendations)论文算法解读相关的知识,希望对你有一定的参考价值。

Deep Reinforcement Learning for List-wise Recommendations

1. 论文所解决的问题

  1. 构建了一个在线的用户-Agent交互环境模拟器,该模拟器适用于模拟在线推荐系统,以在离线的情况下对参数进行预训练和评估;
  2. 提出了一个基于深度强化学习推荐框架:LIRD(LIst-wise Recommendation framework based on
    Deep reinforcement learning),该框架适用于具有大型动态项空间的推荐场景,并可显著地降低计算量;
  3. 在真实的电子商务数据集中验证了所提出框架的有效性,并验证了列表式推荐对精准推荐的重要性。

2. 交互模型

LIRD算法中用户与推荐系统的交互模型是基于MDP模型建立的: M D P = ( S , A , P , R , γ ) MDP=(S,A,P,R,\\gamma) MDP=(S,A,P,R,γ)主要包含以下几个参数变量:

  1. S S S: State space
    S = { s 1 , s 2 , . . . , s t , . . . , s T } , s t = { s t 1 , s t 2 , . . . , s t N } S=\\{s_1,s_2,...,s_t,...,s_T\\},s_t=\\{s_t^1,s_t^2,...,s_t^N\\} S={s1,s2,...,st,...,sT},st={st1,st2,...,stN},即状态空间,定义为用户的历史浏览记录,即用户在时间 t t t之前浏览的前 N N N个项目。 s t s_t st(session)中的浏览项按时间顺序排序;
  2. A A A: Action space
    A = { a 1 , a 2 , . . . , a t , . . . , a T } , a t = { a t 1 , a t 2 , . . . , a t K } A=\\{a_1,a_2,...,a_t,...,a_T\\},a_t=\\{a_t^1,a_t^2,...,a_t^K\\} A={a1,a2,...,at,...,aT},at={at1,at2,...,atK},即动作空间,是当前状态 s t s_t st向用户推荐的推荐列表,其中 K K K是RA(Recommender Agent)每次推荐用户的项的数量;
  3. R R R: Reward
    R = r ( s t , a t ) R=r(s_t,a_t) R=r(st,at),即立即反馈值,RA在 s t s_t st时推荐了项目列表 a t a_t at后,即向用户推荐项目列表后,用户会浏览这些其中的项目并提供反馈。用户可以跳过(不点击)、点击或订购其中的项目,RA将根据用户的反馈获得立即反馈。
  4. P P P: Transition probability
    P = p ( s t + 1 ∣ s t , a t ) P=p(s_{t+1}|s_t,a_t) P=p(st+1st,at),即状态转移概率,定义为RA推荐项目列表 a t a_t at后从状态 s t s_t st转移到 s t + 1 s_{t+1} st+1的概率。 P P P满足MDP的定义,即: P = p ( s t + 1 ∣ s t , a t , s t − 1 , a t − 1 . . . , s 1 , a 1 ) = p ( s t + 1 ∣ s t , a t ) P=p(s_{t+1}|s_t,a_t,s_{t-1},a_{t-1}...,s_1,a_1)=p(s_{t+1}|s_t,a_t) P=p(st+1st,at,st1,at1...,s1,a1)=p(st+1st,at)如果用户在状态 s t s_t st时不点击任何 a t a_t at中的项目,则下一个状态 s t + 1 = s t s_{t+1}=s_t st+1=st;如果用户点击、订购项目列表 a t a_t at中的项目,则下一个状态 s t + 1 s_{t+1} st+1将进行更新。
  5. γ \\gamma γ: Discount factor
    γ ∈ [ 0 , 1 ] \\gamma\\in[0,1] γ[0,1],即折扣因子,定义为对未来奖励的现值的折扣系数。当 γ = 0 \\gamma=0 γ=0时,RA只计算立即反馈;当 γ = 1 \\gamma=1 γ=1时,未来所有的反馈都被完全计入在 a t a_t at中。

3. 交互模拟器

说明
交互模拟器用于模拟在线状态时的用户与推荐系统的交互数据。在线情况时,给定当前状态 s t s_t st,RA(Recommender Agent)向用户推荐一个项目列表 a t a_t at,用户浏览对 a t a_t at中的项目 a t i a_t^i ati做出反馈(跳过、点击、订购等)。RA会根据用户的反馈获得立即反馈 r ( s t , a t ) r(s_t,a_t) r(stat以上是关于LIRD(Deep Reinforcement Learning for List-wise Recommendations)论文算法解读的主要内容,如果未能解决你的问题,请参考以下文章

repost: Deep Reinforcement Learning

Deep Reinforcement Learning 深度增强学习资源

Introducing Deep Reinforcement

Deep Reinforcement Learning

lec-1-Deep Reinforcement Learning, Decision Making, and Control

(zhuan) Deep Reinforcement Learning Papers