哪个类是正面的以及如何在为 ML 准备数据时确定真正的警报

Posted 2023-03-12

技术标签:

【中文标题】哪个类是正面的以及如何在为 ML 准备数据时确定真正的警报【英文标题】：which class is positive and how to determine real alarm in preparing data for ML 【发布时间】：2019-01-11 20:41:48 【问题描述】：

我正在为机器学习准备一些数据。这个问题很简单，但我有点困惑。

假设有一个系统每 1 小时有大约 100 个警报，并且只有 1 或 2 个警报是真正的警报。假警报将被人类忽略。我收集了一些看起来像特征的数据，并将标签 0 或 1 标记为假警报或真警报。

在这种情况下，真正的警报是 0 还是 1？这样，TP，TN，FP，FN，机会水平就会改变。我们感兴趣的是真正的警报，即使所有警报都是人工检查的，我们也不想错过它。

几乎警报是假的，所以几率水平将超过 95%。那么major class和positive class会是1和假警报吗？但我们的兴趣不是假警报。在这种情况下我应该如何设置标签？

【问题讨论】：

【参考方案1】：

这两种方式对模型的性能都一样好，因为损失函数不受您标记 1 或 0 的方式的影响。就我个人而言，我认为 0 应该用于伪造的，而 1 用于真实的。

【讨论】：

以上是关于哪个类是正面的以及如何在为 ML 准备数据时确定真正的警报的主要内容，如果未能解决你的问题，请参考以下文章

如何为包含大量异常值的 ML 分类任务准备 IOT 数据？

如何将实体主键映射到 Spark ML 预测？

ML Kit iOS 人脸检测错误

如何从 lib .so 文件中查找函数？

我可以在为 bigquery 做准备时对谷歌云 sql 中的数据进行非规范化吗

Telegraf 输入插件：如何确定从哪个服务接受输入