不平衡的模型，对采取啥步骤感到困惑

Posted 2023-03-13

技术标签:

【中文标题】不平衡的模型，对采取啥步骤感到困惑【英文标题】：Unbalanced model, confused as to what steps to take不平衡的模型，对采取什么步骤感到困惑 【发布时间】：2018-08-19 06:56:10 【问题描述】：

这是我的第一个数据挖掘项目。我正在使用 SAS Enterprise miner 来训练和测试分类器。

我有 3 个文件可供使用，

训练文件：85 个输入变量和 1 个目标变量，包含 5800 多个观测值预测文件：85 个输入变量，4000 个观测值验证文件：1 个变量包含对第二个文件的正确预测。由于这是一个学术项目，所以这个文件是为了告诉我们我们做得好不好。

我的问题是数据集不平衡（95% 的 0 和 5% 的 1 用于训练文件中的目标变量）。所以很自然，我尝试使用“采样节点”重新采样模型，如下面的link

所述

这是我使用的两种方法，它们给出的结果略有不同。但这是我得到的普遍不满意的结果：

不重新采样：该模型在 4000 次观察中预测少于 10 个请求的个体（目标变量 = 1）通过重采样：该模型在 4000 次观察中预测了大约 1500 名被征集的个人。

我正在寻找 100 到 200 名被征集的个人，以拥有一个被认为可以接受的模型。

为什么您认为我们的预测与这种情况相去甚远，我们该如何补救这种情况？

这是两个模型的屏幕截图

【问题讨论】：

我应该指定，数据集不包含缺失值，上面使用的替换和插补节点不相关。 【参考方案1】：

有一些技术可以处理不平衡的数据。多年前我记得的一种方法是：

假设您有 100 个观察请求（少数），占您所有观察的 5% 使用 KMEAN、MEANSHIF、DBSCAN 和 ... 然后对于每组成熟度聚类观察，创建一个包含所有 100 个观察请求（少数）类的数据集。这意味着您有 20 组数据集，每个女巫与 100 个请求和 100 个非请求观察平衡训练每个平衡组并为每个组创建一个模型在预测时，预测所有 20 个模型。例如，如果 20 个模型中有 15 个说它是征集的，则它是征集的

【讨论】：

以上是关于不平衡的模型，对采取啥步骤感到困惑的主要内容，如果未能解决你的问题，请参考以下文章

步骤用于高度不平衡的分类步骤。我应该对数据进行上采样和下采样，还是对不平衡的类进行上采样

对GDI的感觉感到困惑[关闭]

持久和瞬态对象 - 对术语感到困惑

3dmax怎么让导出的模型有颜色？给了有颜色的材质球导出也没用，是还要啥步骤吗

对图像的 @3x 指定感到困惑

为啥 deeplab v3+ 模型对图像边界外的像素感到困惑？