Sentence2vec和Word2vec涉及停用词和命名实体

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Sentence2vec和Word2vec涉及停用词和命名实体相关的知识,希望对你有一定的参考价值。

我正在研究一个涉及sentence2vec的NLP项目。我假设我将使用预先训练的字嵌入将标记转换为向量,然后继续进行句子嵌入。

因为我的句子涉及:停止像不能,不会,不是等等,NLTK会减少到{ca,wo,are} + not。 所以我无法减少它们,我不想将它们作为停用词删除,因为下面提到的句子应该有不同的嵌入。

我的名字是Priyank 我的名字不是Priyank

另一个重要的疑问是如何在我的句子向量中加入命名实体,例如Mark K. Hogg这样的人的名字。

答案

你可以从这个list删除那些你不想成为停止词的词

# Open a file and read it into memory
file = open('words.txt')
text = file.read()

# Apply the stoplist to the text
clean = [word for word in text.split() if word not in stoplist]

以上是关于Sentence2vec和Word2vec涉及停用词和命名实体的主要内容,如果未能解决你的问题,请参考以下文章

论文|Sentence2Vec & GloVe 算法原理推导与实​现

一文梳理推荐系统的中 EMBEDDING 的应用实践

文本和音频代码的小结

词向量实践(gensim)

Glove词向量

词向量:GloVe