word2vec算法原理

Posted AI算法攻城狮

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了word2vec算法原理相关的知识,希望对你有一定的参考价值。

word2vec 是 Google 于 2013 年开源推出的一个用于获取词向量(word vector)的工具包,它简单、高效,因此引起了很多人的关注。

1.单词的向量化表示

官方链接

https://radimrehurek.com/gensim/models/word2vec.html#gensim.models.word2vec.Text8Corpus


所谓的word vector,就是指将单词向量化,将某个单词用特定的向量来表示。将单词转化成对应的向量以后,就可以将其应用于各种机器学习的算法中去。一般来讲,词向量主要有两种形式,分别是稀疏向量和密集向量。

所谓稀疏向量,又称为one-hot representation,就是用一个很长的向量来表示一个词,向量的长度为词典的大小N,向量的分量只有一个1,其他全为0,1的位置对应该词在词典中的索引[1]。举例来说,如果有一个词典[“面条”,”方便面”,”狮子”],那么“面条”对应的词向量就是[1,0,0],“方便面”对应的词向量就是[0,1,0]。这种表示方法不需要繁琐的计算࿰

以上是关于word2vec算法原理的主要内容,如果未能解决你的问题,请参考以下文章

深度学习方法(十七):word2vec算法原理:跳字模型(skip-gram) 和连续词袋模型(CBOW)

word2vec原理

《Graph EmbeddingLINE:算法原理,实现和应用》

机器学习算法实现解析——word2vec源码解析

word2vec 中的数学原理详解

word2vec 中的数学原理详解