Spark推荐系列之Word2vec算法介绍实现和应用说明

Posted 2021-06-22 Thinkgamer_

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了Spark推荐系列之Word2vec算法介绍实现和应用说明相关的知识，希望对你有一定的参考价值。

Spark推荐实战系列目前已经更新：

更多精彩内容，请持续关注「搜索与推荐Wiki」！

1. 背景

word2vec 是Google 2013年提出的用于计算词向量的工具，在论文Efficient Estimation of Word Representations in Vector Space中，作者提出了Word2vec计算工具，并通过对比NNLM、RNNLM语言模型验证了word2vec的有效性。

word2vec工具中包含两种模型：CBOW和skip-gram。论文中介绍的比较简单，如下图所示，CBOW是通过上下文的词预测中心词，Skip-gram则是通过输入词预测上下文的词。

CBOW和skip-gram

Word2vec 开启了Embedding的相关工作，自从embedding开始大规模走进推荐系统中，下面我们就来看一下Word2vec算法的原理、Spark实现和应用说明。

2. 算法原理

Word2vec包含了两种模型，分别是CBOW和Skip-gram，CBOW又分为：

One-word context
multi-word context

Cbow_One-word context

其中单词的总个数为 $V$ ，隐藏层的神经元个数为 $N$ ，输入层到隐藏层的权重矩阵为 $W_{V*N}$ ，隐藏层到输出层的权重矩阵为 $W'_{N*V}$ 。

multi-word context

此时的 $h$ 表达式为：
$\\frac{1}{C} W^T (x_1 + x_2 + .... + x_C) \\\\ = \\frac{1}{C} (v_{w_1} + v_{w_2}+ ... + v_{w_C})^T$
其中 $C$ 表示上下文单词的个数， $w_1, w_2, ..., w_C$ 表示上下文单词， $v_w$ 表示单词的输入向量（注意和输入层 $x$ 区别）。

目标函数为：
$\\, p(w_O | w_{I_1}, w_{I_2}, ..., w_{I_C}) \\\\ = - u_j * log \\sum_{j'=1}^{V} exp(u_j') \\\\ = -(v'_{w_O})^T * h + log \\sum_{j'=1}^{V} exp((v'_{w_j})^T * h)$

Skip-gram 对应的图如下：

Skip-gram

从输入层到隐藏层：
$=W^T_{k,.} := v^T_{w_I}$
从隐藏层到输出层：
$p(w_{c,j}= w_{O,c} | w_I) = y_{c, j} = \\frac{exp(u_{c,j})} {\\sum_{j'=1}^{V}exp(u_{j'})}$
其中：