NLP | 深入浅出word2vec

Posted AI算法攻城狮

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了NLP | 深入浅出word2vec相关的知识,希望对你有一定的参考价值。

1.word2vec简介

word2vec,即词向量,就是一个词用一个向量来表示。是2013年Google提出的。word2vec工具主要包含两个模型:跳字模型(skip-gram)和连续词袋模型(continuous bag of words,简称CBOW),以及两种高效训练的方法:负采样(negative sampling)和层序softmax(hierarchical softmax)。word2vec词向量可以较好地表达不同词之间的相似和类比关系。word2vec是一个NLP工具,它可以将所有的词向量化,这样词与词之间就可以定量的去度量他们之间的关系,挖掘词之间的联系。

NLP(自然语言处理)里面,最细粒度的是词语,词语组成句子,句子再组成段落、篇章、文档。所以处理 NLP 的问题,首先要先处理词语。词语,是人类的抽象总结,是符号形式的(比如中文、英文、拉丁文等等),所以需要把他们转换成数值形式,或者说——嵌入到一个数学空间里,这种嵌入方式,就叫词嵌入(word embedding),而 Word2vec,就是词嵌入( word embedding) 的一种。简单点来说就是把一个词语转换成对应向量的表达形式,来让机器读取数据。
 

2.语言模型

首先我们需要先思考这样一个问题:如何计算一段文本序列在某种语言下出现的概率?之所为称其为一个基本

以上是关于NLP | 深入浅出word2vec的主要内容,如果未能解决你的问题,请参考以下文章

word2vec概述

NLP教程 | 词向量SVD分解与Word2Vec

NLP系列_深入理解BERT Transformer ,不仅仅是注意力机制

NLP系列_深入理解BERT Transformer ,不仅仅是注意力机制

深入NLP——看中文分词如何影响你的生活点滴

NLP之——Word2Vec详解