回忆在机器学习中意味着啥?

Posted

技术标签:

【中文标题】回忆在机器学习中意味着啥?【英文标题】:What does recall mean in Machine Learning?回忆在机器学习中意味着什么? 【发布时间】:2012-12-16 13:56:33 【问题描述】:

分类器的召回是什么意思,例如贝叶斯分类器?请举个例子。

例如,精度 = 测试数据的正确/正确+错误文档。如何理解召回?

【问题讨论】:

您的“精度”不正确,您给出的公式描述的是 accuracy,而不是 precision 我投票结束这个问题,因为它与 help center 中定义的编程无关,而是关于 ML 理论和/或方法 - 请参阅 machine-learning @ 中的介绍和注意事项987654322@. 【参考方案1】:

召回字面意思是有多少真正的阳性被召回(找到),即有多少正确的命中也被发现。

精度(您的公式不正确)是有多少返回命中是正确,即找到的有多少是正确命中.

【讨论】:

【参考方案2】:

举个例子。想象一下,我们有一个机器学习模型可以检测猫与狗。由人类提供的实际标签称为ground-truth。 模型的输出再次称为预测。现在看下表:

ExampleNo        Ground-truth        Model's Prediction
   0                 Cat                   Cat
   1                 Cat                   Dog
   2                 Cat                   Cat
   3                 Dog                   Cat
   4                 Dog                   Dog

假设我们要查找类 cat 的召回率。根据定义,召回是指正确识别某个类的百分比(来自那个类的所有给定示例)。因此,对于 cat 类,模型正确识别了 2 次(例如 0 和 2)。但这是否意味着实际上只有 2 只猫? 不! 实际上,ground truth 中有 3 只猫(标记为人类)。那么这个类的正确识别率是多少呢? 2 out of 3 that is (2/3) * 100 = 66.67%0.667 如果你在 1 内对其进行归一化。这是示例 3 中对 cat 的另一个预测,但它不是正确的预测,因此我们不考虑它。

现在进入数学公式。先了解两个名词:

TP(真阳性):在实际为阳性时预测阳性。如果猫是我们的正面例子,那么当它实际上是一只猫时,预测它是一只猫。

FN(假阴性):在实际并非负数时预测负数。

现在对于某个类,此分类器的输出可以是两种类型:猫或狗(非猫)。所以正确识别的数量就是真阳性(TP)的数量。同样,该类别的真实样本总数将是 TP + FN。因为在所有猫中,模型要么正确检测到它们(TP),要么没有正确检测到它们(FN,即模型错误地说是阴性(非猫),而实际上是阳性(猫))。因此,对于某个类,TP + FN 表示该类的基本事实中可用的示例总数。所以公式是:

Recall = TP / (TP + FN)

同样可以计算 Dog 的召回率。当时认为狗是正类,猫是负类。

因此,对于任意数量的类,要找到某个类的召回率,将该类作为类并取其余类类为 negative 类,并使用公式查找召回。对每个类继续该过程以找到所有类的召回率。

如果您也想了解精度,请访问此处:https://***.com/a/63121274/6907424

【讨论】:

很好的解释!干得好!【参考方案3】:

我发现***对Precision and Recall的解释非常有用:

假设一个用于识别照片中狗的计算机程序在包含 12 只狗和一些猫的图片中识别出 8 只狗。在识别出的 8 只狗中,有 5 只实际上是狗(真阳性),其余的是猫(假阳性)。该程序的精度为 5/8,而其召回率为 5/12。当搜索引擎返回 30 个页面,其中只有 20 个是相关的,而没有返回 40 个额外的相关页面时,其精确度为 20/30 = 2/3,而其召回率为 20/60 = 1/3。

因此,在这种情况下,精确度是“搜索结果的有用程度”,召回率是“结果的完整程度”

【讨论】:

【参考方案4】:

用非常简单的语言:例如,在一系列政治家的照片中,有多少次政治家 XY 的照片被正确识别为展示的是 A. Merkel 而不是其他政治家?

精度是识别另一个人的次数(误报)的比率:(正确命中)/(正确命中)+(误报)

召回率是照片中显示的人的姓名被错误识别(“召回”)的比率:(正确呼叫)/(正确呼叫)+(错误呼叫)

【讨论】:

【参考方案5】:

ML 中的精度与信息检索中的相同。

recall = TP / (TP + FN)
precision = TP / (TP + FP)

(其中 TP = 真阳性,TN = 真阴性,FP = 假阳性,FN = 假阴性)。

将这些符号用于二元分类器是有意义的,通常“肯定”是不太常见的分类。请注意,精确度/召回率指标实际上是特定形式,其中#classes=2 表示更通用的confusion matrix

此外,您对“精度”的表示实际上是准确度,并且是(TP+TN)/ ALL

【讨论】:

以上是关于回忆在机器学习中意味着啥?的主要内容,如果未能解决你的问题,请参考以下文章

机器学习的出现,是否意味着“古典科学”的过时?

为啥说人工智能和机器学习是Python 独有的专利,像其他C,JAVA 都无法实现?啥原因?

机器学习 vs 深度学习到底有啥区别,为什么更多人选择机器学习

简约机器学习复习笔记/速查手册

clf 在机器学习中是啥意思?

机器学习需要啥数学基础