使用 Wordnet 进行概念提取

Posted

技术标签:

【中文标题】使用 Wordnet 进行概念提取【英文标题】:concept extraction using Wordnet 【发布时间】:2015-12-01 19:57:04 【问题描述】:

我想知道如何使用 WordNet 从文本文档中提取概念。之前我使用词袋方法来测量文本文档之间的相似性,但是我希望使用文本的语义信息,因此想从中提取概念文档。我了解 Wordnet 提供的 Sysnet 包含给定单词的同义词。 但是我想要实现的是我如何使用这些信息来定义文本数据中的概念。我想知道在使用 sysnet 之前是否需要单独手动定义概念列表,然后将这些概念与 sysnet 进行比较。

感谢任何建议或链接。

【问题讨论】:

我不明白,您是在尝试“提取关键字”吗?你说的概念是什么意思?对不起,如果我的问题听起来很愚蠢。 【参考方案1】:

我想你会发现有太多的概念,你自己去列举所有的概念是不切实际的。相反,您应该考虑使用预先存在的知识来源,例如Wikidata、Wikipedia、Freebase、推文的内容、整个网络或其他一些来源作为构建概念的基础。您可能会发现聚类算法对定义这些很有用。就同​​义词而言...与一个概念相关的词可能不一定是同义词(例如,爱和恨可能与同一个概念有关,即对他人的情感强度),并且一些词可能属于多个概念(例如婚礼可能在爱情和婚姻概念中),所以我建议从同义词集到概念之间建立一些联系,而不是严格意义上的 1:1。

【讨论】:

以上是关于使用 Wordnet 进行概念提取的主要内容,如果未能解决你的问题,请参考以下文章

如何在 Python NLTK 中提取 WordNet 同义词集的偏移量并给出同义词集?

从NLTK for Python中的同义词列表中提取单词

从 wordnet 中选择合适的词义

2018.5.27会议记录—— [ 算法原理 ]:手工特征提取的概念问题。

图的抽象:如何从概念的定义中提取模型?

图的抽象:如何从概念的定义中提取模型?