从头开始学习自然语言处理

Posted mata123

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了从头开始学习自然语言处理相关的知识,希望对你有一定的参考价值。

Wording Embedding

  1. word2vec
    基于只含有一个隐层的神经网络,隐层的节点数就是embedding的维度。并提出了CBOW和Skip-Grams这两种语言模型。并针对词典过大而导致计算softmax分母复杂度太高的问题提出了Hierarchical Softmax和 Negative Sampling方法。
  2. glove
    并不是基于神经网络的方法,更类似于对文本中单词的共现性的矩阵进行矩阵分解,然后对每个单词求一个embedding向量。
  3. fasttext
    基于word2vec的改进方法,之前的方法没有考虑单词的形态学特征。比如there和where看起来是非常像的,但是在学习时却是独立来学习的。fasttext考虑将每个单词用 bag of character n-gram 来表示。就是对每个单词基于字符层面切分,比如where 的 3-gram为 {whe,eer,ere},(bag我自己的理解是集合的意思),单词w与其他单词的相关性可以表示成w的n-grams与其他单词的相关性的和

http://www.quest.dcs.shef.ac.uk/wmt16_files_mmt/training.tar.gz




以上是关于从头开始学习自然语言处理的主要内容,如果未能解决你的问题,请参考以下文章

从头开始用 C 语言编程 ARM

毕业设计之 --- 新闻分类系统

毕业设计之 --- 新闻分类系统

有了Julia语言,深度学习框架从此不需要计算图

从头开始学Java,敲出人生第一个程序“Hello world”

windows环境下的C语言学习