Word2Vec 和 Glove 向量是不是适合实体识别?

Posted

技术标签:

【中文标题】Word2Vec 和 Glove 向量是不是适合实体识别?【英文标题】:Is Word2Vec and Glove vectors are suited for Entity Recognition?Word2Vec 和 Glove 向量是否适合实体识别? 【发布时间】:2015-11-19 01:32:50 【问题描述】:

我正在研究命名实体识别。我评估了基于传统 nlp 技术的库,例如 MITIE、Stanford NER、NLTK NER 等。我还研究了用于在向量空间中表示单词的深度学习模型,例如 word2vec 和 Glove 向量,它们很有趣,因为它们提供了有关单词上下文的信息,但特别是对于 NER 的任务,我认为它不太适合。由于所有这些向量模型都创建了词汇和相应的向量表示。如果任何单词未能在词汇表中,则将无法识别。假设命名实体很可能不存在,因为它们不受语言约束。它可以是任何东西。因此,如果在这种情况下必须使用任何深度学习技术,那就是那些通过使用标准英语词汇更依赖于句子结构的技术,即忽略命名字段。有没有这样的模型或方法可用? CNN 或 RNN 会是答案吗?

【问题讨论】:

【参考方案1】:

我认为您的意思是某种语言的文本,但该文本中的命名实体可能包含不同的名称(例如来自其他语言)?

我首先想到的是一些半监督学习技术,模型会定期更新以反映新词汇。

例如,您可能希望使用 word2vec 模型来训练输入数据,并将可能的 NE 的词向量与现有的 NE 进行比较。它们的余弦距离应该很近。

【讨论】:

我不会依赖 NER 的词向量。具有良好特征工程的监督学习技术会产生良好的结果。不过不确定您的用例是什么。

以上是关于Word2Vec 和 Glove 向量是不是适合实体识别?的主要内容,如果未能解决你的问题,请参考以下文章

Glove词向量

词向量:GloVe

加载glove或者word2vec训练好的词向量进行训练LSTM等模型的训练

[Pytorch系列-56]:循环神经网络 - word2vec词向量表Embedding/Glove的定义与读访问

GloVe损失函数的理解

BERT实战:使用DistilBERT作为词嵌入进行文本情感分类,与其它词向量(FastText,Word2vec,Glove)进行对比