Efficient Estimation of Word Representations in Vector Space 笔记

Posted 2022-02-23 一杯敬朝阳一杯敬月光

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了Efficient Estimation of Word Representations in Vector Space 笔记相关的知识，希望对你有一定的参考价值。

先上这篇paper链接：https://arxiv.org/pdf/1301.3781.pdf

摘要

这篇paper介绍了两种基于大规模数据集计算continuous vector representations of words的模型。（这边的continuous或可理解为上下文中心词是连在一起的）。在单词相似性任务中衡量这些representations 的性能，并将结果与以前基于不同类型神经网络的优秀的模型进行比较。在更低的计算成本下，准确度有了很大的提高。这些vectors在测试集上能很好的捕捉到语意和句法的相似性。

引言

当时很多的NLP算法，将words当作最小的原子用词典中的下标表示，缺点是没有words间相似性的概念，优点是简单（大训练集上的简单模型的表现优于小训练集上的复杂模型，在有限的计算资源和时间复杂度下，简单的模型能作用于更大的训练集）、鲁棒。例如N-gram模型能作用于万亿级别单词的数据集。

以上是关于Efficient Estimation of Word Representations in Vector Space 笔记的主要内容，如果未能解决你的问题，请参考以下文章