文献阅读:ESAM: Discriminative Domain Adaptation with Non-Displayed Items to Improve Long-Tail Performanc

Posted 墨客无言

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了文献阅读:ESAM: Discriminative Domain Adaptation with Non-Displayed Items to Improve Long-Tail Performanc相关的知识,希望对你有一定的参考价值。

文献链接:https://arxiv.org/pdf/2005.10545v1.pdf

1. 内容简介 & 问题描述

这一篇文章是阿里提出的另一篇推荐系统的文章,思路上而言多少是接续了之前的ESMM这篇文章的,多少算是其后续的一个优化方法。

关于ESMM这个工作,相信大家基本也都了解,我之前也写过一篇小文章(文献阅读:Entire Space Multi-Task Model:An Effective Approach for Estimating Post-Click Conversion Rate)对其进行过内容整理,其针对的问题是关于SSB(Sample Selection Bias)以及DS(Data Sparsity)的,即数据选择偏差以及数据的稀疏性问题。

不过相较于ESMM模型仅仅针对CVR问题进行了一个针对性的建模与优化,而这一篇文章当中提出的ESAM方法则更加普适,可以用于各类SSB以及DS问题。

2. 主要方法描述

文章最为核心的思路还是在训练过程中加入那些长尾的数据,让模型可以见到更多的数据,进而从中学到有效的信息。

但是,不同于之前的ESMM工作当中使用隐式概率传递关系进行信号学习的方式,这里的信号学习是通过正则项的方式进行学习的。

我们首先给出模型的结构以及其对应的loss function如下:

L = L S + λ 1 ⋅ L D A + λ 2 ⋅ L D C c + λ 3 ⋅ L D C p L = L_{S} + \\lambda_1 \\cdot L_{DA} + \\lambda_2 \\cdot L_{DC}^c + \\lambda_3 \\cdot L_{DC}^p L=LS+λ1LDA+λ2LDCc+λ3LDCp

其中, L S L_{S} LS是主Loss函数,对于不同的问题会有不同的定义,而剩余三个是三个正则项,其具体定义如下:

  1. L D A L_{DA} LDA

    L D A = 1 L 2 ∑ j , k L ( h j s T ⋅ h k s − h j t T ⋅ h k t ) 2 = 1 L 2 ∣ ∣ C o v ( D s ) − C o v ( D t ) ∣ ∣ F 2 \\begin{aligned} L_{DA} & = \\frac{1}{L^2} \\sum_{j, k}^{L}(h_j^{sT} \\cdot h_k^s - h_j^{tT} \\cdot h_k^t)^2 \\\\ & = \\frac{1}{L^2} ||Cov(D^s) - Cov(D^t)||_{F}^2 \\end{aligned} LDA=L21j,kL(hjsThkshjtThkt)2=L21Cov(Ds)Cov(Dt)F2

    其中,s表示有反馈的数据,即经过曝光之后的标签数据,而t表示无反馈数据,即没有经过曝光的长尾数据。后者在原先的训练设置当中是无法得到训练的。

    j和k表示遍历模型输出的最终的item表示的所有维度,即他的意思是说,最终输出的表示向量 v v v的任意两个维度之间的关系相关性应该是一个比较稳定的型号。即 C o v ( D ) Cov(D) Cov(D)是一个 L × L L\\times L L×L的矩阵。

    通过这个正则项,模型的目标是将那些未曾经过充分训练的item,乃至在训练中从未见过的item,都能够直接生成一个合理的embedding表示。我的理解是有点类似于GNN当中的鉴别器。

  2. L D C c L_{DC}^c LDCc

    L D C c = ∑ j = 1 n m a x ( 0 , ∣ ∣ v d j s ∣ ∣ v d j s ∣ ∣ − c q y j s ∣ ∣ 2 2 − m 1 ) + ∑ k = 1 n y ∑ u = k + 1 n y m a x ( 0 , m 2 − ∣ ∣ c q k − c q u ∣ ∣ 2 2 ) \\begin{aligned} L_{DC}^c & = \\sum_{j=1}^n max(0, ||\\frac{v_{d_j^s}}{||v_{d_j^s}|| - c_{q}^{y_j^s}}||_2^2 - m_1) \\\\ & + \\sum_{k=1}^{n_y} \\sum_{u=k+1}^{n_y} max(0, m_2 - ||c_q^k - c_q^u||_2^2) \\end{aligned} LDCc=j=1nmax(0,vdjscqyjsvdjs22m1)+k=1nyu=k+1nymax(0,m2cqkcqu22)

    其中,

    c q k = ∑ j = 1 n ( δ ( y j s = Y k ) ⋅ v d j s ∣ ∣ v d j s ∣ ∣ ) ∑ j = 1 n δ ( y j s = Y K ) c_q^k = \\frac{\\sum_{j=1}^n (\\delta(y_j^s = Y_k) \\cdot \\frac{v_{d_j^s}}{||v_{d_j^s}||})}{\\sum_{j=1}^{n} \\delta(y_j^s = Y_K)} cqk=j=1nδ(y什么是ESAM安全模块

    Discriminative LocalizationLearning Deep Features for Discriminative Localization 论文解析(转)

    生成模型(Generative)和判别模型(Discriminative)

    理解一下generative learning and discriminative learning algorithm

    Learning Deep Features for Discriminative Localization

    文献学习文献分类查询阅读及管理