从头开始学习自然语言处理
Posted mata123
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了从头开始学习自然语言处理相关的知识,希望对你有一定的参考价值。
Wording Embedding
- word2vec
基于只含有一个隐层的神经网络,隐层的节点数就是embedding的维度。并提出了CBOW和Skip-Grams这两种语言模型。并针对词典过大而导致计算softmax分母复杂度太高的问题提出了Hierarchical Softmax和 Negative Sampling方法。 - glove
并不是基于神经网络的方法,更类似于对文本中单词的共现性的矩阵进行矩阵分解,然后对每个单词求一个embedding向量。 - fasttext
基于word2vec的改进方法,之前的方法没有考虑单词的形态学特征。比如there和where看起来是非常像的,但是在学习时却是独立来学习的。fasttext考虑将每个单词用 bag of character n-gram 来表示。就是对每个单词基于字符层面切分,比如where 的 3-gram为 {whe,eer,ere},(bag我自己的理解是集合的意思),单词w与其他单词的相关性可以表示成w的n-grams与其他单词的相关性的和
http://www.quest.dcs.shef.ac.uk/wmt16_files_mmt/training.tar.gz
以上是关于从头开始学习自然语言处理的主要内容,如果未能解决你的问题,请参考以下文章