文献阅读:ESAM: Discriminative Domain Adaptation with Non-Displayed Items to Improve Long-Tail Performanc
Posted 墨客无言
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了文献阅读:ESAM: Discriminative Domain Adaptation with Non-Displayed Items to Improve Long-Tail Performanc相关的知识,希望对你有一定的参考价值。
文献链接:https://arxiv.org/pdf/2005.10545v1.pdf
1. 内容简介 & 问题描述
这一篇文章是阿里提出的另一篇推荐系统的文章,思路上而言多少是接续了之前的ESMM这篇文章的,多少算是其后续的一个优化方法。
关于ESMM这个工作,相信大家基本也都了解,我之前也写过一篇小文章(文献阅读:Entire Space Multi-Task Model:An Effective Approach for Estimating Post-Click Conversion Rate)对其进行过内容整理,其针对的问题是关于SSB(Sample Selection Bias)以及DS(Data Sparsity)的,即数据选择偏差以及数据的稀疏性问题。
不过相较于ESMM模型仅仅针对CVR问题进行了一个针对性的建模与优化,而这一篇文章当中提出的ESAM方法则更加普适,可以用于各类SSB以及DS问题。
2. 主要方法描述
文章最为核心的思路还是在训练过程中加入那些长尾的数据,让模型可以见到更多的数据,进而从中学到有效的信息。
但是,不同于之前的ESMM工作当中使用隐式概率传递关系进行信号学习的方式,这里的信号学习是通过正则项的方式进行学习的。
我们首先给出模型的结构以及其对应的loss function如下:
L = L S + λ 1 ⋅ L D A + λ 2 ⋅ L D C c + λ 3 ⋅ L D C p L = L_{S} + \\lambda_1 \\cdot L_{DA} + \\lambda_2 \\cdot L_{DC}^c + \\lambda_3 \\cdot L_{DC}^p L=LS+λ1⋅LDA+λ2⋅LDCc+λ3⋅LDCp
其中, L S L_{S} LS是主Loss函数,对于不同的问题会有不同的定义,而剩余三个是三个正则项,其具体定义如下:
-
L D A L_{DA} LDA
L D A = 1 L 2 ∑ j , k L ( h j s T ⋅ h k s − h j t T ⋅ h k t ) 2 = 1 L 2 ∣ ∣ C o v ( D s ) − C o v ( D t ) ∣ ∣ F 2 \\begin{aligned} L_{DA} & = \\frac{1}{L^2} \\sum_{j, k}^{L}(h_j^{sT} \\cdot h_k^s - h_j^{tT} \\cdot h_k^t)^2 \\\\ & = \\frac{1}{L^2} ||Cov(D^s) - Cov(D^t)||_{F}^2 \\end{aligned} LDA=L21j,k∑L(hjsT⋅hks−hjtT⋅hkt)2=L21∣∣Cov(Ds)−Cov(Dt)∣∣F2
其中,s表示有反馈的数据,即经过曝光之后的标签数据,而t表示无反馈数据,即没有经过曝光的长尾数据。后者在原先的训练设置当中是无法得到训练的。
j和k表示遍历模型输出的最终的item表示的所有维度,即他的意思是说,最终输出的表示向量 v v v的任意两个维度之间的关系相关性应该是一个比较稳定的型号。即 C o v ( D ) Cov(D) Cov(D)是一个 L × L L\\times L L×L的矩阵。
通过这个正则项,模型的目标是将那些未曾经过充分训练的item,乃至在训练中从未见过的item,都能够直接生成一个合理的embedding表示。我的理解是有点类似于GNN当中的鉴别器。
-
L D C c L_{DC}^c LDCc
L D C c = ∑ j = 1 n m a x ( 0 , ∣ ∣ v d j s ∣ ∣ v d j s ∣ ∣ − c q y j s ∣ ∣ 2 2 − m 1 ) + ∑ k = 1 n y ∑ u = k + 1 n y m a x ( 0 , m 2 − ∣ ∣ c q k − c q u ∣ ∣ 2 2 ) \\begin{aligned} L_{DC}^c & = \\sum_{j=1}^n max(0, ||\\frac{v_{d_j^s}}{||v_{d_j^s}|| - c_{q}^{y_j^s}}||_2^2 - m_1) \\\\ & + \\sum_{k=1}^{n_y} \\sum_{u=k+1}^{n_y} max(0, m_2 - ||c_q^k - c_q^u||_2^2) \\end{aligned} LDCc=j=1∑nmax(0,∣∣∣∣vdjs∣∣−cqyjsvdjs∣∣22−m1)+k=1∑nyu=k+1∑nymax(0,m2−∣∣cqk−cqu∣∣22)
其中,
c q k = ∑ j = 1 n ( δ ( y j s = Y k ) ⋅ v d j s ∣ ∣ v d j s ∣ ∣ ) ∑ j = 1 n δ ( y j s = Y K ) c_q^k = \\frac{\\sum_{j=1}^n (\\delta(y_j^s = Y_k) \\cdot \\frac{v_{d_j^s}}{||v_{d_j^s}||})}{\\sum_{j=1}^{n} \\delta(y_j^s = Y_K)} cqk=∑j=1nδ(y什么是ESAM安全模块
Discriminative LocalizationLearning Deep Features for Discriminative Localization 论文解析(转)
生成模型(Generative)和判别模型(Discriminative)
理解一下generative learning and discriminative learning algorithm