PyTorch笔记 - Word Embeddings & Word2vec 原理与源码

Posted SpikeKing

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了PyTorch笔记 - Word Embeddings & Word2vec 原理与源码相关的知识,希望对你有一定的参考价值。

欢迎关注我的CSDN:https://blog.csdn.net/caroline_wendy
本文地址:https://blog.csdn.net/caroline_wendy/article/details/128227529

语言建模

  1. 基于已有的人类组织的文本语料,来去无监督学习如何组织一句话,并还能得到单词的语义表征。
  2. 统计模型:n-gram,N个单词所构成的序列,在文档中出现的次数,基于贝叶斯公式。
  3. 无监督学习:NNLM(Neural Network Language Model)《A Neural Probabilistic Language Model》,Neural Network + n-gram
  4. 大规模无监督学习:word2vec、BERT(Bidirectional Encoder Representations from Transformers)

n-gram模型

  1. 特点:统计性、简单、泛化能力差、无法得到单词的语义信息
  2. 定义:n个相邻字符构成的序列
    1. uni-gram,单一单词
    2. bi-gram,两个单词
    3. tri-gram,三个单词
  3. 用途:基于n-gram的频数分析文本,如垃圾邮件

以上是关于PyTorch笔记 - Word Embeddings & Word2vec 原理与源码的主要内容,如果未能解决你的问题,请参考以下文章

PyTorch笔记 - Word Embeddings & Word2vec 原理与源码

Pytorch Note40 词嵌入(word embedding)

基于pytorch实现word2vec

PyTorch基础——词向量(Word Vector)技术

动手学pytorch-Word2vec

PyTorch学习笔记:PyTorch生态简介