不平衡的模型,对采取啥步骤感到困惑
Posted
技术标签:
【中文标题】不平衡的模型,对采取啥步骤感到困惑【英文标题】:Unbalanced model, confused as to what steps to take不平衡的模型,对采取什么步骤感到困惑 【发布时间】:2018-08-19 06:56:10 【问题描述】:这是我的第一个数据挖掘项目。我正在使用 SAS Enterprise miner 来训练和测试分类器。
我有 3 个文件可供使用,
-
训练文件:85 个输入变量和 1 个目标变量,包含 5800 多个观测值
预测文件:85 个输入变量,4000 个观测值
验证文件:1 个变量包含对第二个文件的正确预测。由于这是一个学术项目,所以这个文件是为了告诉我们我们做得好不好。
我的问题是数据集不平衡(95% 的 0 和 5% 的 1 用于训练文件中的目标变量)。所以很自然,我尝试使用“采样节点”重新采样模型,如下面的link
所述这是我使用的两种方法,它们给出的结果略有不同。但这是我得到的普遍不满意的结果:
不重新采样:该模型在 4000 次观察中预测少于 10 个请求的个体(目标变量 = 1) 通过重采样:该模型在 4000 次观察中预测了大约 1500 名被征集的个人。我正在寻找 100 到 200 名被征集的个人,以拥有一个被认为可以接受的模型。
为什么您认为我们的预测与这种情况相去甚远,我们该如何补救这种情况?
这是两个模型的屏幕截图
【问题讨论】:
我应该指定,数据集不包含缺失值,上面使用的替换和插补节点不相关。 【参考方案1】:有一些技术可以处理不平衡的数据。多年前我记得的一种方法是:
-
假设您有 100 个观察请求(少数),占您所有观察的 5%
使用 KMEAN、MEANSHIF、DBSCAN 和 ...
然后对于每组成熟度聚类观察,创建一个包含所有 100 个观察请求(少数)类的数据集。这意味着您有 20 组数据集,每个女巫与 100 个请求和 100 个非请求观察平衡
训练每个平衡组并为每个组创建一个模型
在预测时,预测所有 20 个模型。例如,如果 20 个模型中有 15 个说它是征集的,则它是征集的
【讨论】:
以上是关于不平衡的模型,对采取啥步骤感到困惑的主要内容,如果未能解决你的问题,请参考以下文章
步骤用于高度不平衡的分类步骤。我应该对数据进行上采样和下采样,还是对不平衡的类进行上采样