NLP | 深入浅出word2vec

Posted 2021-09-14 AI算法攻城狮

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了NLP | 深入浅出word2vec相关的知识，希望对你有一定的参考价值。

1.word2vec简介

word2vec，即词向量，就是一个词用一个向量来表示。是2013年Google提出的。word2vec工具主要包含两个模型：跳字模型（skip-gram）和连续词袋模型（continuous bag of words，简称CBOW），以及两种高效训练的方法：负采样（negative sampling）和层序softmax（hierarchical softmax）。word2vec词向量可以较好地表达不同词之间的相似和类比关系。word2vec是一个NLP工具，它可以将所有的词向量化，这样词与词之间就可以定量的去度量他们之间的关系，挖掘词之间的联系。

NLP（自然语言处理）里面，最细粒度的是词语，词语组成句子，句子再组成段落、篇章、文档。所以处理 NLP 的问题，首先要先处理词语。词语，是人类的抽象总结，是符号形式的（比如中文、英文、拉丁文等等），所以需要把他们转换成数值形式，或者说——嵌入到一个数学空间里，这种嵌入方式，就叫词嵌入（word embedding)，而 Word2vec，就是词嵌入（ word embedding) 的一种。简单点来说就是把一个词语转换成对应向量的表达形式，来让机器读取数据。

2.语言模型

首先我们需要先思考这样一个问题：如何计算一段文本序列在某种语言下出现的概率？之所为称其为一个基本

以上是关于NLP | 深入浅出word2vec的主要内容，如果未能解决你的问题，请参考以下文章

word2vec概述

NLP教程 | 词向量SVD分解与Word2Vec

NLP系列_深入理解BERT Transformer ，不仅仅是注意力机制

深入NLP——看中文分词如何影响你的生活点滴

NLP之——Word2Vec详解