回忆在机器学习中意味着啥？

Posted 2023-03-12

技术标签:

【中文标题】回忆在机器学习中意味着啥？【英文标题】：What does recall mean in Machine Learning?回忆在机器学习中意味着什么？ 【发布时间】：2012-12-16 13:56:33 【问题描述】：

分类器的召回是什么意思，例如贝叶斯分类器？请举个例子。

例如，精度 = 测试数据的正确/正确+错误文档。如何理解召回？

【问题讨论】：

您的“精度”不正确，您给出的公式描述的是 accuracy，而不是 precision。我投票结束这个问题，因为它与 help center 中定义的编程无关，而是关于 ML 理论和/或方法 - 请参阅 machine-learning @ 中的介绍和注意事项987654322@. 【参考方案1】：

召回字面意思是有多少真正的阳性被召回（找到），即有多少正确的命中也被发现。

精度（您的公式不正确）是有多少返回命中是正确正，即找到的有多少是正确命中.

【讨论】：

【参考方案2】：

举个例子。想象一下，我们有一个机器学习模型可以检测猫与狗。由人类提供的实际标签称为ground-truth。模型的输出再次称为预测。现在看下表：

ExampleNo        Ground-truth        Model's Prediction
   0                 Cat                   Cat
   1                 Cat                   Dog
   2                 Cat                   Cat
   3                 Dog                   Cat
   4                 Dog                   Dog

假设我们要查找类 cat 的召回率。根据定义，召回是指正确识别某个类的百分比（来自那个类的所有给定示例）。因此，对于 cat 类，模型正确识别了 2 次（例如 0 和 2）。但这是否意味着实际上只有 2 只猫？不！实际上，ground truth 中有 3 只猫（标记为人类）。那么这个类的正确识别率是多少呢？ 2 out of 3 that is (2/3) * 100 = 66.67% 或 0.667 如果你在 1 内对其进行归一化。这是示例 3 中对 cat 的另一个预测，但它不是正确的预测，因此我们不考虑它。

现在进入数学公式。先了解两个名词：

TP（真阳性）：在实际为阳性时预测阳性。如果猫是我们的正面例子，那么当它实际上是一只猫时，预测它是一只猫。

FN（假阴性）：在实际并非负数时预测负数。

现在对于某个类，此分类器的输出可以是两种类型：猫或狗（非猫）。所以正确识别的数量就是真阳性（TP）的数量。同样，该类别的真实样本总数将是 TP + FN。因为在所有猫中，模型要么正确检测到它们（TP），要么没有正确检测到它们（FN，即模型错误地说是阴性（非猫），而实际上是阳性（猫））。因此，对于某个类，TP + FN 表示该类的基本事实中可用的示例总数。所以公式是：

Recall = TP / (TP + FN)

同样可以计算 Dog 的召回率。当时认为狗是正类，猫是负类。

因此，对于任意数量的类，要找到某个类的召回率，将该类作为正类并取其余类类为 negative 类，并使用公式查找召回。对每个类继续该过程以找到所有类的召回率。

如果您也想了解精度，请访问此处：https://***.com/a/63121274/6907424

【讨论】：

很好的解释！干得好！【参考方案3】：

我发现***对Precision and Recall的解释非常有用：

假设一个用于识别照片中狗的计算机程序在包含 12 只狗和一些猫的图片中识别出 8 只狗。在识别出的 8 只狗中，有 5 只实际上是狗（真阳性），其余的是猫（假阳性）。该程序的精度为 5/8，而其召回率为 5/12。当搜索引擎返回 30 个页面，其中只有 20 个是相关的，而没有返回 40 个额外的相关页面时，其精确度为 20/30 = 2/3，而其召回率为 20/60 = 1/3。

因此，在这种情况下，精确度是“搜索结果的有用程度”，召回率是“结果的完整程度”。

【讨论】：

【参考方案4】：

用非常简单的语言：例如，在一系列政治家的照片中，有多少次政治家 XY 的照片被正确识别为展示的是 A. Merkel 而不是其他政治家？

精度是识别另一个人的次数（误报）的比率：（正确命中）/（正确命中）+（误报）

召回率是照片中显示的人的姓名被错误识别（“召回”）的比率：（正确呼叫）/（正确呼叫）+（错误呼叫）

【讨论】：

【参考方案5】：

ML 中的精度与信息检索中的相同。

recall = TP / (TP + FN)
precision = TP / (TP + FP)

（其中 TP = 真阳性，TN = 真阴性，FP = 假阳性，FN = 假阴性）。

将这些符号用于二元分类器是有意义的，通常“肯定”是不太常见的分类。请注意，精确度/召回率指标实际上是特定形式，其中#classes=2 表示更通用的confusion matrix。

此外，您对“精度”的表示实际上是准确度，并且是(TP+TN)/ ALL

【讨论】：

以上是关于回忆在机器学习中意味着啥？的主要内容，如果未能解决你的问题，请参考以下文章