不平衡的模型,对采取啥步骤感到困惑

Posted

技术标签:

【中文标题】不平衡的模型,对采取啥步骤感到困惑【英文标题】:Unbalanced model, confused as to what steps to take不平衡的模型,对采取什么步骤感到困惑 【发布时间】:2018-08-19 06:56:10 【问题描述】:

这是我的第一个数据挖掘项目。我正在使用 SAS Enterprise miner 来训练和测试分类器。

我有 3 个文件可供使用,

    训练文件:85 个输入变量和 1 个目标变量,包含 5800 多个观测值 预测文件:85 个输入变量,4000 个观测值 验证文件:1 个变量包含对第二个文件的正确预测。由于这是一个学术项目,所以这个文件是为了告诉我们我们做得好不好。

我的问题是数据集不平衡(95% 的 0 和 5% 的 1 用于训练文件中的目标变量)。所以很自然,我尝试使用“采样节点”重新采样模型,如下面的link

所述

这是我使用的两种方法,它们给出的结果略有不同。但这是我得到的普遍不满意的结果:

不重新采样:该模型在 4000 次观察中预测少于 10 个请求的个体(目标变量 = 1) 通过重采样:该模型在 4000 次观察中预测了大约 1500 名被征集的个人。

我正在寻找 100 到 200 名被征集的个人,以拥有一个被认为可以接受的模型。

为什么您认为我们的预测与这种情况相去甚远,我们该如何补救这种情况?

这是两个模型的屏幕截图

【问题讨论】:

我应该指定,数据集不包含缺失值,上面使用的替换和插补节点不相关。 【参考方案1】:

有一些技术可以处理不平衡的数据。多年前我记得的一种方法是:

    假设您有 100 个观察请求(少数),占您所有观察的 5% 使用 KMEAN、MEANSHIF、DBSCAN 和 ... 然后对于每组成熟度聚类观察,创建一个包含所有 100 个观察请求(少数)类的数据集。这意味着您有 20 组数据集,每个女巫与 100 个请求和 100 个非请求观察平衡 训练每个平衡组并为每个组创建一个模型 在预测时,预测所有 20 个模型。例如,如果 20 个模型中有 15 个说它是征集的,则它是征集的

【讨论】:

以上是关于不平衡的模型,对采取啥步骤感到困惑的主要内容,如果未能解决你的问题,请参考以下文章

步骤用于高度不平衡的分类步骤。我应该对数据进行上采样和下采样,还是对不平衡的类进行上采样

对GDI的感觉感到困惑[关闭]

持久和瞬态对象 - 对术语感到困惑

3dmax怎么让导出的模型有颜色?给了有颜色的材质球导出也没用,是还要啥步骤吗

对图像的 @3x 指定感到困惑

为啥 deeplab v3+ 模型对图像边界外的像素感到困惑?