如果要一句话概括词向量的用处,就是提供了一种数学化的方法,把自然语言这种符号信息转化为向量形式的数字信息。这样就把自然语言理解的问题要转化为机器学习的问题。
其中最常用的词向量模型无非是 one-hot Representation模型和 distributed representation 模型。
One-hot Representation
One-hot Representation 就是用一个很长的向量来表示一个词,向量长度为词典的大小N,每个向量只有一个维度为1,其余维度全部为0,为1的位置表示该词语在词典的位置。
举个常见例子:
“话筒”表示为 [0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 …]
“麦克”表示为 [0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 …]
这种 One-hot Representation 如果采用稀疏方式存储,会是非常的简洁,也就是给每个词分配一个数字 ID。但这种表示方式有两个缺点:
(1)容易受维数灾难的困扰,每个词语的维度就是语料库字典的长度。
(2)词语的编码往往是随机的,导致不能很好地刻画词与词之间的相似性
Distributed representation
Distributed representation 最早由 Hinton在1986 年提出。其依赖思想是:词语的语义是通过上下文信息来确定的,即相同语境出现的词,其语义也相近。
Distributed Representation与one-hot representation对比
- 在形式上,one-hot representation 词向量是一种稀疏词向量,其长度就是字典长度,而Distributed Representation是一种固定长度的稠密词向量。一般长这样:[0.792, −0.177, −0.107, 0.109, −0.542, …]
- 在功能上,Distributed representation 最大的贡献就是让相关或者相似的词,在距离上更接近了。
关于生成 Distributed representation 形式的词向量,除了word2vec外,还有其他生成的方式。如:LSA矩阵分解模型、 PLSA 潜在语义分析概率模型、LDA 文档生成模型。但本文只关注 word2vec 这种方式,其他不做介绍。
将word映射到一个新的空间中,并以多维的连续实数向量进行表示叫做“Word Represention” 或 “Word Embedding”。自从21世纪以来,人们逐渐从原始的词向量稀疏表示法过渡到现在的低维空间中的密集表示。用稀疏表示法在解决实际问题时经常会遇到维数灾难,并且语义信息无法表示,无法揭示word之间的潜在联系。而采用低维空间表示法,不但解决了维数灾难问题,并且挖掘了word之间的关联属性,从而提高了向量语义上的准确度。
神经网络训练词向量
NNLM 是 Neural Network Language Model 的缩写,即神经网络语言模型。这方面最值得阅读的文章:Bengio 的《A Neural Probabilistic Language Model》
这部分内容首先需理解下图。Bengio用了一个三层的神经网络来构建语言模型,同样也是 n-gram 模型。本小节即主要是对于这个图的理解:
以输入一句英文为例:The cat is walking in the bedroom。如果我们需要这句话中所有上下文为数量为4的连续词汇片段,那么就有 The cat is walking、cat is walking in、is walking in the 以及 walking in the bedroom 这样4个片段。从语言模型角度上来讲,每个连续词汇片段的最后一个单词是什么,都是受前面三个词汇制约。因此,这就形成了一个根据前面三个单词,预测最后一个单词的监督学习系统。
如果用神经网络框架来描述,上图就代表一个监督模型的神经网络,当上下文数量为n的时候,这里的模型就是用前n-1个词语,也就是w(t-1) … w(t-n+1),来预测第t个词语w(t)。在神经网络中,用于计算的都是这些词的向量表示,如C(w(t-1)) 就是词语 w(t-1) 的向量表示。
这里C(w(t-1))其实就是词向量,但不是最终的词向量,最终结果还需要多轮迭代计算。其实这些词向量就是神经网络里的参数,生成词向量的过程就是一个参数更新的过程。
注意:对于初学者来说这里有个坑,考虑一个问题:词向量不是我们最终得到的吗?那我们如何得到最初输入的每个词对应的词向量C(w(t-1))、C(w(t-2))、、、C(w(t-n+1))?以下是我查阅资料后自己的理解:
在上图中存在一个系数矩阵C(是一个N*M的矩阵),其中N是词典的长度,M是词向量的维度。最底层的输入其实是词语的one-hot形式,one-hot也可以看成 1*N的矩阵 ,与这个系数矩阵C(N*M, M是word2vec词向量维数)相乘之后就可以得到1*M的向量,这个向量就是这个词对应的词向量了。
从本质上来看,词语w转化为词向量C(w),就是根据词 w 的one-hot 形式,通过矩阵相乘,从系数矩阵C中取出一行。
还需注意的是,这个系数矩阵C,就是神经网络的参数,最初是随机的,随着训练的进行不断被更新。
Word2vec 训练介绍
这部分还是一样,尽量想避开那些底层原理、不想多扯。
Word2Vec 实际上是两种不同思想实现的:CBOW(Continuous Bag of Words) 和 Skip-gram。
CBOW的目标是根据上下文来预测当前词语的概率,且上下文所有的词对当前词出现概率的影响的权重是一样的,因此叫continuous bag-of-words模型。如在袋子中取词,取出数量足够的词就可以了,至于取出的先后顺序是无关紧要的。
Skip-gram刚好相反:根据当前词语来预测上下文的概率。
这两种方法都利用人工神经网络作为它们的分类算法。起初每个单词都是一个随机 N 维向量。经过训练之后,该算法利用 CBOW 或者 Skip-gram 的方法获得了每个单词的最优向量。训练过程如下图所示:
对于CBOW 和 Skip-gram 的基本思想讲到这里就结束了。按照学习word2vec一般套路,接下来就是实现CBOW 和 Skip-gram 这两种思想的方法了— Hierarchical Softmax 和 negative sampling。