PyTorch笔记 - Word Embeddings & Word2vec 原理与源码
Posted SpikeKing
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了PyTorch笔记 - Word Embeddings & Word2vec 原理与源码相关的知识,希望对你有一定的参考价值。
欢迎关注我的CSDN:https://blog.csdn.net/caroline_wendy
本文地址:https://blog.csdn.net/caroline_wendy/article/details/128227529
语言建模
- 基于已有的人类组织的文本语料,来去无监督学习如何组织一句话,并还能得到单词的语义表征。
- 统计模型:n-gram,N个单词所构成的序列,在文档中出现的次数,基于贝叶斯公式。
- 无监督学习:NNLM(Neural Network Language Model)《A Neural Probabilistic Language Model》,Neural Network + n-gram
- 大规模无监督学习:word2vec、BERT(Bidirectional Encoder Representations from Transformers)
n-gram模型
- 特点:统计性、简单、泛化能力差、无法得到单词的语义信息
- 定义:n个相邻字符构成的序列
- uni-gram,单一单词
- bi-gram,两个单词
- tri-gram,三个单词
- 用途:基于n-gram的频数分析文本,如垃圾邮件
以上是关于PyTorch笔记 - Word Embeddings & Word2vec 原理与源码的主要内容,如果未能解决你的问题,请参考以下文章
PyTorch笔记 - Word Embeddings & Word2vec 原理与源码