获取 nltk semcor 语料库词的意义词干

Posted 2023-03-16

技术标签:

【中文标题】获取 nltk semcor 语料库词的意义词干【英文标题】：Getting sense stems for nltk semcor corpus words 【发布时间】：2021-11-01 15:37:41 【问题描述】：

我在 nltk 中尝试使用 semcorp corpus。

我找到了这个代码here:

>>> list(map(str, semcor.tagged_chunks(tag='both')[:3])) 
['(DT The)', "(Lemma('group.n.01.group') (NE (NNP Fulton County Grand Jury)))", "(Lemma('state.v.01.say') (VB said))"]

我在 colab 上尝试过同样的方法（检查 this 笔记本中的最后一个单元格）：

>>> list(map(str, semcor.tagged_chunks(tag='both')[:3]))
['(DT The)',
 '(group.n.01 (NE (NNP Fulton County Grand Jury)))',
 '(say.v.01 (VB said))']

这是来自 colab 的截图：

问题

请注意，在 nltk 页面上，Fulton County Grand Jury 的输出为 Lemma('group.n.01.group')，但在 colab 上，我得到的是 group.n.01。所以我没有理解/同义词集。

在group.n.01.group 第一个group 是“意义词的词干” 最后一个group 是“输入词干” 在group.n.01 （第一个也是唯一一个）group 是“输入词干” 没有返回“词干”

奇怪的是它昨天给了我正确的输出。 This notebook 将消除疑问，因为它在今天和昨天执行了相同的两行。昨天（2/9/2021），我收到了group.n.01.group 格式的标签，但今天我收到了group.n.01 格式的标签（注意红色和蓝色评论）：

我在这里缺少什么？

【问题讨论】：

【参考方案1】：

我知道semcor 使用wordnet 感觉来标记brown 语料库的子集。但我不知道semcor APIs 可以在有或没有预下载wordnet 的情况下工作，它会在这些不同的场景中给出不同格式的标签。老实说，至少semcor API 文档应该提到这一点。

因此，如果没有预下载 wordnet，它不会返回语义词干：

预下载了wordnet，它确实返回了感觉词干：

【讨论】：

以上是关于获取 nltk semcor 语料库词的意义词干的主要内容，如果未能解决你的问题，请参考以下文章