文献阅读11期：A Deep Value-network Based Approach for Multi-Driver Order Dispatching

Posted 2022-12-04 RaZLeon

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了文献阅读11期：A Deep Value-network Based Approach for Multi-Driver Order Dispatching相关的知识，希望对你有一定的参考价值。

[ 文献阅读 ] A Deep Value-network Based Approach for Multi-Driver Order Dispatching [1]

推荐理由：滴滴Oral论文，新提出了一种新的基于深度强化学习与半马尔科夫决策过程的智能派单应用，在同时考虑时间与空间的长期优化目标的基础上利用深度神经网络进行更准确有效的价值估计。通过系统的离线模拟实验以及在滴滴平台的在线AB实验证明，这种基于深度强化学习的派单算法相比现有最好的方法能进一步显著提升平台各项效率及用户体验。

1. 半马尔科夫决策（SMDP）建模

在本文框架内，一个接单司机只会在一个离散时间段的末尾随机地和框架产生交互。
每个时间步t中，通过向量 $s_t \\in \\mathcalS$ 告知司机当前状况，并且在此基础上作出接单或路径选择 $o_t \\in O_s_t$ 。
作为响应，环境对每一步中间步骤 $\\ldots, k_o_t$ ，会产生一个奖励 $r_t+i$ 。期望的选择奖励可以表达为：
$r_s t^O:=E\\left\\r_t+1+\\gamma r_t+2+\\ldots+\\gamma^k_o t-1 r_t+k_o t \\mid s_t=s, o_t=o\\right\\\\\\ \\textwhere 1 \\geq \\gamma>0$
状态State $s_t$ 的组成： $s_t:=\\left(l_t, \\mu_t, v_t\\right)$ ，其中 $l_t$ 代表地点（Location）， $\\mu_t$ 代表生时间戳， $v_t$ 代表当前时间地点的上下文特征向量。
选择Option $o_t$ 代表着计算机推演的，一个司机作出选择后的时空结果预测（说人话就是电脑要看你这个司机的这个路线选择和驾驶品质会有怎样的结果，博主自己猜的）
接单这种行为就可以理解为：在 $s_t$ 执行 $o_t$ 。
奖励 Reward $R_t$ ，本文指代一单下来，从 $s_t$ 到 $s_t'$ ，执行 $o_t$ 之后，客户付款的总额。如果司机处于等单子的idle状态，那Reward肯定就是0了。奖赏链还包含了一个折扣因子 $\\gamma$ ，整个奖励链表达如下： $\\hatR_t=r_t+1+\\gamma r_t+2+\\ldots+\\gamma^k_t-1 r_t+k_t$
策略Policy $\\pi(o \\mid s)$ ，指代了状态s下选取o的概率，执行这个 $\\pi$ 意味着生成了一个司机的历史轨迹：
$\\left\\\\tau_i\\right\\_i \\in \\mathcalH:=\\left\\\\left(s_i 0, o_i 0, r_i 1, s_i 1, o_i 1, r_i 2, \\ldots, r_i T_i, s_i T_i\\right)\\right\\_i \\in \\mathcalH$
其中 $\\mathcalH$ 代表着司机的历史轨迹的Index。
有了SMDP和历史轨迹 $\\mathcalH$ ，接下来就是对基本策略的评估。本文使用贝尔曼等式：