计算精度和召回率

Posted 2023-03-12

技术标签:

【中文标题】计算精度和召回率【英文标题】：Calculate Precision and Recall 【发布时间】：2012-11-26 11:07:21 【问题描述】：

我真的很困惑如何在使用 NB 分类器的监督机器学习算法中

例如1) 我有两个类 A,B2) 我有 10000 个文档，其中 2000 个用于训练样本集(class A=1000,class B=1000)3)现在在上面的训练样本集的基础上使用NB分类器对剩下的8000个文档进行分类4)现在将 5000 个文档分类到 A 类，将 3000 个文档分类到 B 类5) 现在如何计算 Precision 和 Recall？

请帮帮我..

谢谢

【问题讨论】：

【参考方案1】：

您好，您必须将结果分为四组 - 真正的 A 类（TA） - 正确分类为 A 类错误的 A 类 (FA) - 错误地归入 A 类真正的 B 类 (TB) - 正确分类为 B 类错误的 B 类 (FB) - 错误地分类为 B 类

精度 = TA / (TA + FA) 召回 = TA / (TA + FB)

您可能还需要准确度和 F-measure：

准确度 = (TA + TB) / (TA + TB + FA + FB) f-measure = 2 * ((精度 * 召回率)/(精度 + 召回率))

更多：http://en.wikipedia.org/wiki/Precision_and_recall#Definition_.28classification_context.29

【讨论】：

Tom 谢谢回复。现在如何识别TA、FA、TB、FB？是我必须手动检查所有机密文件还是有什么方法？您可以分别对每个类运行测试并计算正确分类和错误分类。例如，当您对标记为 A 的测试文档运行测试时，每个文档有两种可能的分类：如果分类为 A，则将 1 加到 TA，如果分类为 B，则将 1 加到 FB。对于 B 类似：如果分类为 A，则将 1 加到 FA，如果分类为 B，则将 1 加到 TB。我希望你明白。 :-) 当然，对于 A 类和 B 类，您不必将测试分为两次运行，您可以只运行一次，但我认为这更容易理解。谢谢汤姆，我明白你真的拯救了我的一天..这让我感到困惑..现在我明白了解决方案..再次感谢.. Tom 我再次需要你的帮助。我想知道如何计算两个以上班级的 f-measure 您好，抱歉这么久才回复。您需要计算宏 F 度量。看看这篇文章：rushdishams.blogspot.cz/2011/08/…-Tom【参考方案2】：

为了清楚起见，让我解释一下。

假设视频中有 9 只狗和一些猫，图像处理算法告诉您场景中有 7 只狗，其中只有 4 只实际上是狗（真阳性），而 3 只是猫（假阳性）

精确度告诉我们在分类为狗的项目中，有多少实际上是狗

所以 精度 = 真阳性/（真阳性 + 假阳性） = 4/(4+3) = 4/7

虽然回忆可以说明狗的总数，但实际找到了多少只狗。

所以 召回 = 真阳性/总数 = 真阳性/（真阳性 + 假阴性） = 4/9

在你的问题中

您必须找到 A 类和 B 类的准确率和召回率

A类

True positive =（5000个分类A类文档中A类文档的数量）

误报 =（5000 个分类的 A 类文档中 B 类文档的数量）

从上面你可以找到Precision。

Recall = True positive/（测试时使用的 A 类文档的总数）

对 B 类重复上述操作以找到其精度和召回率。

【讨论】：

以上是关于计算精度和召回率的主要内容，如果未能解决你的问题，请参考以下文章