DeepFM

Posted 2022-05-07 zhiyong_will

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了DeepFM相关的知识，希望对你有一定的参考价值。

1. 概述

特征交叉对于CTR问题的求解有着重要作用，纵观CTR模型的发展可以看出，每一次效果的提升，都伴随着对特征的挖掘，尤其是交叉特征。FM[1]算法在线性模型LR的基础上增加了二阶特征的交叉，对LR效果有着显著的提升；随着深度学习的发展，深度模型天然的特征交叉能力，Google的Wide & Deep[2]通过结合Wide模型的记忆能力和Deep模型的泛化能力，充分利用Deep侧的特征交叉能力，然而由于Wide侧使用的依然是线性模型，依赖于人工特征工程的参与。DeepFM[3]是华为在2017年提出的用于求解CTR问题的深度模型，DeepFM是在Google的Wide & Deep模型的基础上，将FM算法引入到Wide侧，替换掉原始的Wide & Deep模型中的LR模型，可以实现端到端的学习特征的交叉，无需人工特征工程的参与。DeepFM模型一经推出，就受到业界很多公司的关注，并在众多互联网公司的多个场景中落地。

2. 算法原理

2.1. DeepFM的网络结构

DeepFM的网络结构如下图所示：

在DeepFM的网络结构中，主要包括四个部分：第一，Embedding层，用于将稀疏的离散特征转换成稠密的特征向量；第二，FM层，用于计算交叉特征，如上图中的左侧部分；第三，DNN部分，与Wide & Deep模型中的Deep侧一致；最后，输出层，融合左侧FM层和右侧DNN部分的输出得到最终的模型输出。

2.2. DeepFM的计算过程

2.2.1. Embedding层

Embedding层的作用是将输入样本中的稀疏特征转化成稠密的特征。假设训练集 $\\left ( \\chi ,y \\right )$ 是由 $n$ 个样本组成，其中特征 $\\chi$ 是由 $m$ 个域（field）的数据集合，每个域对应了一个离散的特征， $y\\in \\left \\ 0,1 \\right \\$ 是样本标签。在CTR预测问题的训练集中，通常包含了两类特征，分别为：类别特征和连续特征，对于类别特征，处理方法是使用one-hot对其编码，而对于连续特征，处理方法通常有两种，一种是不进行处理，直接使用连续值，第二种是先对其离散化，再用one-hot编码表示。

通过one-hot编码后，每一个样本 $\\left ( x,y \\right )$ 的特征为 $x$ 是一个 $d$ 维的向量，且 $x=\\left [ x_field_1,x_field_2,\\cdots ,x_field_j,\\cdots ,x_field_m \\right ]$ ，其中 $x_field_j$ 为特征 $\\chi$ 的第 $j$ 个域，对于每个域，通过Embedding层将该域中的特征由稀疏的向量转换成稠密的向量，其具体的过程由下图所示：

由上图可知，Embedding的过程是针对每个域单独进行的。为描述简单，假设对于第 $j$ 个域 $x_field_j$ ，假设第 $j$ 个域的维数是 $d_j$ ，Embedding层的输出为 $e_j$ ，维度为 $k$ ，假设此处的 $k = 5$ ，从稀疏特征到Embedding输出可以由下图表示：

上述的映射可以由下述的公式表示：

$e_j=W_j\\cdot x_field_j$

其中 $W_j$ 为 $k\\times d_j$ 的矩阵，上述公式同时可以表示为：

$W_j=\\beginpmatrix V_11 & V_21 & \\cdots & V_d_j1\\\\ V_12 & V_22 & \\cdots & V_d_j2\\\\ \\vdots & \\vdots & \\ddots & \\vdots \\\\ V_1k & V_2k & \\cdots & V_d_jk \\endpmatrix$

其中，可以看到：

$e_j,1=V_11\\cdot x_field_j,1+V_21\\cdot x_field_j,2+\\cdots +V_d_j,1\\cdot x_field_j,d_j$

此处的 $V_11$