查找不同单词之间的语义相似性和关系

Posted

技术标签:

【中文标题】查找不同单词之间的语义相似性和关系【英文标题】:Finding semantic similarity and relations between different words 【发布时间】:2014-11-19 17:47:39 【问题描述】:

我正在从事一个项目,该项目涉及计算不同概念之间的相关性。

示例: “着陆” - 与:“到达;来”和“着陆”有关, “电话” - 与:“电子;电”和“谈话;交流”有关, “电影” - 与:“移动;改变”和“图片;图像”相关 ,等等。

我检查了 WordNet 框架和 WordNet::Similarity Perl 模块,但在某些情况下它们不可用,尤其是在我需要将名词与动词连接的情况下(例如名词“dog”和动词“to吠”)。此外,WordNet 以分层结构组织所有同义词集(例如:计算机 -> 机器 -> 设备 -> 仪器),这并不是我在项目中真正需要的(当然,我可能错了)。

问题是 - 哪个框架或数据库,我应该使用什么方法来解决问题?我从哪里开始?

如果您能给我一些建议,那将非常有帮助。

【问题讨论】:

你需要组织你需要的相似性、关系和语义。我认为“着陆”和“着陆”之间的关系以及“着陆”和“到达”之间的关系是不同语义的关系。您可能需要可以处理词素和单词之间关系的框架。 您应该尝试利用 WordNet 中的“派生相关形式”来将名词与动词联系起来。但是......理解概念相关性的真实(即研究)方法是通过使用它们在大型数据集上的分布相似性对单词进行建模。 【参考方案1】:

word2vec 嵌入可能会很好地完成您的任务。它提供了比 wordnet 更柔和的相似性概念。你可以从这里https://code.google.com/p/word2vec/ 获得一些预训练的嵌入。

【讨论】:

以上是关于查找不同单词之间的语义相似性和关系的主要内容,如果未能解决你的问题,请参考以下文章

如何度量两个词之间的语义相似度

在 wordnet 中查找同义词集之间的距离

混合语言的语义相似性

查找不同长度的两个 DataFrame 之间的相似性

词向量:GloVe

潜在语义分析(LSA)