从 wordnet 中选择合适的词义
Posted
技术标签:
【中文标题】从 wordnet 中选择合适的词义【英文标题】:Choosing appropriate sense of a word from wordnet 【发布时间】:2016-05-15 10:53:53 【问题描述】:我正在使用 Wordnet 来查找本体概念的同义词。我怎样才能找到适合我的本体概念的意义。例如,有一个本体概念“会议”,它在 wordnet 中具有以下同义词集 名词会议有 3 种意义(前 3 种来自标记文本)
-
(12) 会议 -- (预先安排的协商或交流信息或讨论的会议(尤其是有正式议程的会议))
(2) 联赛、会议 --(为其成员组织比赛的运动队协会)
(2) 会议、小组讨论--(参与者之间的讨论)
现在第一和第三同义词对我的本体概念有适当的意义。如何从 wordnet 中只选择这两个?
【问题讨论】:
【参考方案1】:您正在寻找的技术是语义消歧/表示。
最“传统的做法”是Word Sense Disambiguation(WSD),看看
https://en.wikipedia.org/wiki/Word-sense_disambiguation https://***.com/questions/tagged/word-sense-disambiguation Anyone know of some good Word Sense Disambiguation software?然后是下一代词义归纳/主题建模/知识表示:
https://en.wikipedia.org/wiki/Word-sense_induction https://en.wikipedia.org/wiki/Topic_model https://en.wikipedia.org/wiki/Knowledge_representation_and_reasoning然后是最近的炒作:
词嵌入、向量空间模型、神经网络有时人们会跳过语义表示,直接进行文本相似度,并通过比较成对的句子来确定差异/相似之处,然后才能达到文本处理的最终目的。
查看Normalize ranking score with weights 以获取与 STS 相关的工作列表。
在另一个方向,有
本体创建(Cyc、Yago、Freebase 等) 语义网 (https://en.wikipedia.org/wiki/Semantic_Web) 语义词汇资源(WordNet、Open Multilingual WordNet 等) 知识库人群 (http://www.nist.gov/tac/2014/KBP/)最近还有一个关于本体归纳/扩展的任务:
http://alt.qcri.org/semeval2015/task17/ http://alt.qcri.org/semeval2016/task13/ http://alt.qcri.org/semeval2016/task14/根据最终任务,也许上述任何一种技术都会有所帮助。
【讨论】:
也看看这个:github.com/alvations/pywsd(免责声明:我建造了它=))【参考方案2】:你也可以试试 Babelfy,它提供了词义消歧和命名实体消歧。
演示: http://babelfy.org/
API: http://babelfy.org/guide
【讨论】:
【参考方案3】:看看这个列表:100 Best GitHub: Word-sense Disambiguation 并通过 WordNet 搜索 - 有几个合适的库。
我没用过,但this one 似乎很有前途,因为它是基于经典而有效的想法(即Lesk algorithm),通过现代嵌入方法进行升级。实际上,在找到它之前,我会建议尝试几乎相同的想法。
另请注意,所有方法都试图找到与当前单词/搭配的上下文最相似的含义(WordNet sysnet,在您的情况下),因此了解您要尝试的单词的上下文至关重要消除歧义。例如,单词可以来自某些文本,而大多数库都依赖于此。
【讨论】:
以上是关于从 wordnet 中选择合适的词义的主要内容,如果未能解决你的问题,请参考以下文章