词干会损害文本分类的精度吗?
Posted
技术标签:
【中文标题】词干会损害文本分类的精度吗?【英文标题】:Does stemming harm precision in text classification? 【发布时间】:2012-05-09 07:32:31 【问题描述】:我读过词干会损害精确度,但会提高文本分类的召回率。这是怎么发生的?当您停止时,您会增加查询和示例文档之间的匹配数,对吗?
【问题讨论】:
我不确定它是否会对答案产生影响,但至少对我来说,不清楚您是否指的是信息检索(鉴于您提到 queries) ,或文本分类(鉴于标题中提到的)。 对不起。我这里指的是文本分类。 【参考方案1】:来自 Query_expansion 上的***条目:
通过对用户输入的词进行词干处理,匹配更多文档,因为用户输入的词的替代词形式也被匹配,从而增加了总召回率。这是以降低精度为代价的。通过扩展搜索查询以搜索用户输入术语的同义词,召回率也会以精确度为代价而增加。这是由于如何计算精度的方程的性质,因为召回因素是分母的一部分,更大的召回隐含地导致精度下降。还可以推断出较大的召回率会对整体搜索结果质量产生负面影响,因为许多用户不希望梳理更多结果,而不管精度如何。
【讨论】:
我看不出***的推理是如何正确的。如果搜索结果before词干中有b 个文档,并且其中a 个是相关的,则精度为a/b。现在,如果通过词干提取 c 文档被添加到结果集中,并假设所有这些文档实际上都是相关的,那么精度变为 (a+c)/(b+c)。由于 a 我认为***是对的。我特别关注 IR,我不太确定这是否适用于文本分类。考虑查询“news”,如果词干分析器将其超词为“新”,那么召回率肯定会保持甚至更高,但精确度肯定会受到影响(因为“新闻”和“新”共享相同的词干,假设这样的词干分析器做到了那样的话。这些案例涉及词干过度/不正确的词干,但也包括模棱两可的案例。使用词干提取,召回率可能会增加或保持,但准确率可能会降低或保持。 @Kenston 你说的是对的,但***说的仍然是错误的。您正在谈论一个引入歧义的词干实例。这肯定会降低精度。但 Wikipedia 声称,召回率的任何增加必须意味着由于其定义方式(“方程式的性质”)而导致的精确度下降。那是错的。如果由于词干提取,仅(或大部分)相关文档被添加到结果集中,则精度不会降低。它甚至可以增加。 @jogojapan,我同意!似乎 Wiki 文章暗示召回率的增加必然会降低准确率。虽然这是我们需要期待/注意的事情,但它仅在特定情况下才会发生,甚至可能会发生精度提高的可能性。【参考方案2】:总是一样的,如果你提高回忆,你在做一个概括。正因为如此,你正在失去精确度。 Stemming 将单词合并在一起。
一方面,应该合并在一起的词(例如“adhere”和“adhesion”)在词干后可能保持不同;另一方面,真正不同的词可能会被错误地混为一谈(例如,“实验”和“经验”)。这些分别被称为understemming errors 和overstemming errors。
词干过度会降低准确率,词干不足会降低召回率。因此,由于根本没有词干化意味着没有过度但最大的词干不足错误,因此您的召回率很低,但准确率很高。
顺便说一句,精度意味着您找到的“文档”中有多少是您正在寻找的。召回意味着您收到了多少正确的“文档”。
【讨论】:
那么,如果有人在做词干提取,除了减小字典的大小之外,他会期待什么?以上是关于词干会损害文本分类的精度吗?的主要内容,如果未能解决你的问题,请参考以下文章