LIRD(Deep Reinforcement Learning for List-wise Recommendations)论文算法解读
Posted 白水baishui
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了LIRD(Deep Reinforcement Learning for List-wise Recommendations)论文算法解读相关的知识,希望对你有一定的参考价值。
Deep Reinforcement Learning for List-wise Recommendations
文章目录
1. 论文所解决的问题
- 构建了一个在线的用户-Agent交互环境模拟器,该模拟器适用于模拟在线推荐系统,以在离线的情况下对参数进行预训练和评估;
- 提出了一个基于深度强化学习推荐框架:LIRD(LIst-wise Recommendation framework based on
Deep reinforcement learning),该框架适用于具有大型动态项空间的推荐场景,并可显著地降低计算量; - 在真实的电子商务数据集中验证了所提出框架的有效性,并验证了列表式推荐对精准推荐的重要性。
2. 交互模型
LIRD算法中用户与推荐系统的交互模型是基于MDP模型建立的: M D P = ( S , A , P , R , γ ) MDP=(S,A,P,R,\\gamma) MDP=(S,A,P,R,γ)主要包含以下几个参数变量:
-
S
S
S: State space
S = { s 1 , s 2 , . . . , s t , . . . , s T } , s t = { s t 1 , s t 2 , . . . , s t N } S=\\{s_1,s_2,...,s_t,...,s_T\\},s_t=\\{s_t^1,s_t^2,...,s_t^N\\} S={s1,s2,...,st,...,sT},st={st1,st2,...,stN},即状态空间,定义为用户的历史浏览记录,即用户在时间 t t t之前浏览的前 N N N个项目。 s t s_t st(session)中的浏览项按时间顺序排序; -
A
A
A: Action space
A = { a 1 , a 2 , . . . , a t , . . . , a T } , a t = { a t 1 , a t 2 , . . . , a t K } A=\\{a_1,a_2,...,a_t,...,a_T\\},a_t=\\{a_t^1,a_t^2,...,a_t^K\\} A={a1,a2,...,at,...,aT},at={at1,at2,...,atK},即动作空间,是当前状态 s t s_t st向用户推荐的推荐列表,其中 K K K是RA(Recommender Agent)每次推荐用户的项的数量; -
R
R
R: Reward
R = r ( s t , a t ) R=r(s_t,a_t) R=r(st,at),即立即反馈值,RA在 s t s_t st时推荐了项目列表 a t a_t at后,即向用户推荐项目列表后,用户会浏览这些其中的项目并提供反馈。用户可以跳过(不点击)、点击或订购其中的项目,RA将根据用户的反馈获得立即反馈。 -
P
P
P: Transition probability
P = p ( s t + 1 ∣ s t , a t ) P=p(s_{t+1}|s_t,a_t) P=p(st+1∣st,at),即状态转移概率,定义为RA推荐项目列表 a t a_t at后从状态 s t s_t st转移到 s t + 1 s_{t+1} st+1的概率。 P P P满足MDP的定义,即: P = p ( s t + 1 ∣ s t , a t , s t − 1 , a t − 1 . . . , s 1 , a 1 ) = p ( s t + 1 ∣ s t , a t ) P=p(s_{t+1}|s_t,a_t,s_{t-1},a_{t-1}...,s_1,a_1)=p(s_{t+1}|s_t,a_t) P=p(st+1∣st,at,st−1,at−1...,s1,a1)=p(st+1∣st,at)如果用户在状态 s t s_t st时不点击任何 a t a_t at中的项目,则下一个状态 s t + 1 = s t s_{t+1}=s_t st+1=st;如果用户点击、订购项目列表 a t a_t at中的项目,则下一个状态 s t + 1 s_{t+1} st+1将进行更新。 -
γ
\\gamma
γ: Discount factor
γ ∈ [ 0 , 1 ] \\gamma\\in[0,1] γ∈[0,1],即折扣因子,定义为对未来奖励的现值的折扣系数。当 γ = 0 \\gamma=0 γ=0时,RA只计算立即反馈;当 γ = 1 \\gamma=1 γ=1时,未来所有的反馈都被完全计入在 a t a_t at中。
3. 交互模拟器
说明:
交互模拟器用于模拟在线状态时的用户与推荐系统的交互数据。在线情况时,给定当前状态
s
t
s_t
st,RA(Recommender Agent)向用户推荐一个项目列表
a
t
a_t
at,用户浏览对
a
t
a_t
at中的项目
a
t
i
a_t^i
ati做出反馈(跳过、点击、订购等)。RA会根据用户的反馈获得立即反馈
r
(
s
t
,
a
t
)
r(s_t,a_t)
r(st,at以上是关于LIRD(Deep Reinforcement Learning for List-wise Recommendations)论文算法解读的主要内容,如果未能解决你的问题,请参考以下文章
repost: Deep Reinforcement Learning
Deep Reinforcement Learning 深度增强学习资源
Introducing Deep Reinforcement
lec-1-Deep Reinforcement Learning, Decision Making, and Control