决策数量和样本类别数不相等的原因

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了决策数量和样本类别数不相等的原因相关的知识,希望对你有一定的参考价值。

参考技术A 样本类别数量不均衡主要出现在分类建模的情况。通常为某类别的样本数量较少,导致模型忽略了小样本的特征,由大样本主导。
面对样本数量不均的情况,常用的方法如下:

抽样
常规的包含过抽样、欠抽样、组合抽样
过抽样:将样本较少的一类sample补齐
欠抽样:将样本较多的一类sample压缩
组合抽样:约定一个量级N,同时进行过抽样和欠抽样,使得正负样本量和等于约定量级N
这种方法要么丢失数据信息,要么会导致较少样本共线性,存在明显缺陷

权重调整
常规的包括算法中的weight,weight matrix
改变入参的权重比,比如boosting中的全量迭代方式、逻辑回归中的前置的权重设置
这种方式的弊端在于无法控制合适的权重比,需要多次尝试

核函数修正
通过核函数的改变,来抵消样本不平衡带来的问题
这种使用场景局限,前置的知识学习代价高,核函数调整代价高,黑盒优化

模型修正
通过现有的较少的样本类别的数据,用算法去探查数据之间的特征,判读数据是否满足一定的规律
比如,通过线性拟合,发现少类样本成线性关系,可以新增线性拟合模型下的新点
实际规律比较难发现,难度较高

python有专门处理不平衡数据的包

pip install imbalanced_learn

from imblearn.over_sampling import SMOTE # 过抽样处理库SMOTE
from imblearn.under_sampling import RandomUnderSampler # 欠抽样处理库RandomUnderSampler
from imblearn.ensemble import EasyEnsemble # 简单集成方法EasyEnsemble
#...不一一例举
1
2
3
4
5
6
1
2
3
4
5
6
打开CSDN,阅读体验更佳

Python解决数据样本类别分布不均衡问题_weixin_30703911的博客-CSDN...
所谓不平衡指的是:不同类别的样本数量差异非常大。数据规模上可以分为大数据分布不均衡和小数据分布不均衡。大数据分布不均衡:例如拥有1000万条记录的数据集中,其中占比50万条的少数分类样本便于属于这种情况。小数据分布不均衡:例如拥有...
解决样本类别分布不均衡的问题_gulie8的博客_样本类别不...
样本分布不均衡将导致样本量少的分类所包含的特征过少,并很难从中提取规律;即使得到分类模型,也容易产生过度依赖于有限的数据样本而导致过拟合的问题,当模型应用到新的数据上时,模型的准确性和健壮性将很差。 样本分布不均衡主要在于不...
正负样本不均衡的解决办法
问题定义:数据集中,每个类别下的样本数目相差很大(数量级上的差距)。以下以二分类问题为例说明。 1. SMOTE(Synthetic Minority Over-sampling Technique)过采样小样本(扩充小类,产生新数据) 即该算法构造的数据是新样本,原数据集中不存在的。该基于距离度量选择小类别下两个或者更多的相似样本,然后选择其中一个样本,并随机选择一定数量的邻居样本对选择的...
继续访问
第三章:Logistic回归模型
本章介绍Logistic回归分类模型,并通过案例讲解如何使用Logistic回归模型。
继续访问

python样本不均衡_[ML] 解决样本类别分布不均衡的问题_weixin_3955557...
过抽样(也叫上采样、over-sampling)方法通过增加分类中少数类样本的数量来实现样本均衡,最直接的方法是简单复制少数类样本形成多条记录,这种方法的缺点是如果样本特征少而可能导致过拟合的问题;经过改进的过抽样方法通过在少数类中加入随机...
怎样解决样本不平衡问题_zhurui_xiaozhuzaizai的博客_如何解决...
问题定义:数据集中,每个类别下的样本数目相差很大(数量级上的差距)。 这类问题我们一般称之为“长尾问题”, 如按照 class frequency 排序, 可以将 frequency 较高的 class/label 称之为 head label, frequency 较低的 class/label 称...
解决样本类别分布不均衡的问题
       不均衡指的是不同类别的样本量差异非常大,样本类别分布不均衡从数据规模上课=可分为大数据分布不均衡和小数据分布不均衡两种。       大数据分布不均衡:例如拥有1000万条记录的数据集中,其中占比50万条的少数分类样本便属于这种情况       小数据分布不均衡:例如拥有1000条记录的数据集中,其中占有10条样本的分类,其特征无论如何拟合也无法实现完整特征值的覆盖,属于严重的数...
继续访问
【机器学习】处理样本不均衡问题的方法,样本权重的处理方法及代码
今天学习了关于样本类别分布不均衡的处理的一些知识,在此和大家一起分享一下。 什么是样本类别分布不均衡? 举例说明,在一组样本中不同类别的样本量差异非常大,比如拥有1000条数据样本的数据集中,有一类样本的分类只占有10条,此时属于严重的数据样本分布不均衡。 样本不均衡指的是给定数据集中有的类别数据多,有的数据类别少,且数据占比较多的数据类别样本与占比较小的数据类别样本两者之间达到较大的比例。 样本...
继续访问

分类问题:如何解决样本分布不均衡_Grayson Zhang的博客_样本...
第二种是重采样,意思是,对数量较少的类别的样本重复采样,使其最终输入模型的数量与数量多的类别的样本的数量相仿。但是,虽然重采样可以在样本数量少,样本珍惜的情况下,手动的使不同类别样本的数量趋于平衡,但是它很大程度上破坏了数据的...
分类方法中样本类别不均衡问题_lpty的博客
一、前言大部分的分类学习方法都存在一个基本的假设,训练集中不同类别的训练样本数目差不多。如果不同类别的样本数目差距很大,比如正类样本有98个,而负类样本只有2个,这种情况下学习出来的分类器只要一直返回正类的预测结果,那很轻易的...
python数据预处理 :样本分布不均的解决(过采样和欠采样)
今天小编就为大家分享一篇python数据预处理 :样本分布不均的解决(过采样和欠采样),具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧 何为样本分布不均: 样本分布不均衡就是指样本差异非常大,例如共1000条数据样本的数据集中,其中占有10条样本分类,其特征无论如何你和也无法实现完整特征值的覆盖,此时属于严重的样本分布不均衡。 为何要解决样本分布不均: 样本分部不均衡的数据集也是很...
继续访问
不平衡数据下的机器学习方法简介
不平衡数据下的机器学习方法简介 来源:http://www.jianshu.com/p/3e8b9f2764c8 字数3729 阅读2856 评论8 喜欢16 机器学习已经成为了当前互联网领域不可或缺的技术之一,前辈们对机器学习模型的研究已经给我们留下了一笔非常宝贵的财富,然而在工业界的应用中我们可以看到,应用场景千千万万,数据千千万万但是我们的模型却依然是那些,在机器学
继续访问
样本不平衡问题_Hong-Jian的博客
样本类别相差很大,比如,正样本998个,负样本2个,训练得到的模型将永远将新样本预测为正样本,这样的模型毫无价值。一般解决样本不平衡问题从三个方向出发:第一:上采样【也叫过采样】,增加补充少的类别样本,比如这里增多负样本,使得正负...
数据样本类别不平衡
标题训练集中类别不平衡,会引起什么评估指标最不准确? 准确度(Accuracy) (注意与精度区分) 对于二分类问题来说,正负样例比相差较大为99:1,模型更容易被训练成预测较大占比的类别。因为模型只需要对每个样例按照0.99的概率预测正类,该模型就能达到99%的准确率。 样本不均衡(数据倾斜)解决办法? 数据层面 1. 上采样: Smote过采样方法,基于插值来为少数类合成新的样本(构建新的样本...
继续访问
xgboostgbdt在调参时为什么树的深度很少就能达到很高的精度?
xgboostgbdt在调参时为什么树的深度很少就能达到很高的精度?
样本不均衡的一些处理技巧
refer1: https://zhuanlan.zhihu.com/p/28850865 refer2: http://blog.sina.com.cn/s/blog_4c98b960010008l5.html(1) 数据层次的方法欠采样欠采样(undersampling)法是去除训练集内一些多数样本,使得两类数据量级接近,然后在正常进行学习。这种方法的缺点是就是放弃了很多反例,这会导致平衡后
继续访问
如何处理分类中的训练数据集不均衡问题
本文参考自:http://blog.csdn.net/heyongluoyao8/article/details/49408131,有删改。什么是数据不均衡?在分类中,训练数据不均衡是指不同类别下的样本数目相差巨大。举两个例子: ①在一个二分类问题中,训练集中class 1的样本数比上class 2的样本数的比值为60:1。使用逻辑回归进行分类,最后结果是其忽略了class 2,将所有的训练样本都分
继续访问
CSDN机器学习笔记七 实战样本不均衡数据解决方法
信用卡检测案例原始数据:0特别多,1特别少——样本不均衡。 要么让0和1一样多,要么让0和1一样少。 1.下采样对于数据0和1,要变为同样少——在0里选择和1一样多数据。from sklearn.preprocessing import StandardScaler data['normAmount']=StandardScaler().fit_transform(data['Amount'].
继续访问
数据不平衡处理方法
在机器学习任务中,我们经常会遇到这种困扰:数据不平衡问题。 数据不平衡问题主要存在于有监督机器学习任务中。当遇到不平衡数据时,以总体分类准确率为学习目标的传统分类算法会过多地关注多数类,从而使得少数类样本的分类性能下降。绝大多数常见的机器学习算法对于不平衡数据集都不能很好地工作。 本文介绍几种有效的解决数据不平衡情况下有效训练有监督算法的思路: 1、重新采样训练集 可以
继续访问
样本不平衡问题分析与部分解决办法
最近工作中在处理文本分类问题遇到了分类不均衡的问题,主要还是样本太少还同时非常的不均衡正负样本1:10(类别不平衡比例超过4:1,就会造成偏移),就使用了SMOTE方法。 注意:在进行数据增广的时候一定要将测试集和验证集单独提前分开,扩张只在训练集上进行,否则会造成在增广的验证集和测试集上进行验证和测试,在实际上线后再真实数据中效果可能会非常的差。 目录 什么是样本类别分布不均衡? 问题描...
继续访问
热门推荐 Imblearn package study(不平衡数据处理之过采样、下采样、综合采样)
本文主要是对不平衡(不均衡)数据的一些方法进行搜索学习, 包括但不限于下采样(under sampling)、过采样(over sampling)的方法及python实现
继续访问
机器学习-关于数据不均衡、某类别数据量不够的解决方案.
随着人工智能的快速发展和大数据时代的来临,数据挖掘、数据分析变得越来越重要,它们为各行各业带来了巨大的实际价值.与此同时,越来越多的机器学习算法从学术界走向工业界,而在这个过程中会有很多困难。数据不平衡问题虽然不是最难的,但绝对是最重要的问题之一。 1、数据不均衡的影响 数据不均衡会导致模型收敛速度减慢,并且个别类别学习的特征过少造成泛化能力偏差 对于图像数据 数据不均衡的处理方法 主要通过数据增强的方法:例如对图像进行旋转 镜像对称 随机裁剪 放松 平移 角度变化 random 还可以通过采样..
继续访问
类别样本不平衡问题
类别不平衡就是指分类任务中不同类别的训练样例数目差别很大的情况。下面以这样的一种情况作为假设实例,假定正类样例

第4章 决策树理解记录

决策树产生预测结果需要进行前边的一系列的判断条件。

项目实验步骤:首先设置训练集和属性集,然后生成结点node,先判断D中样本集属于同一类别,这种情况下将node结点的类别标记为该类别;然后判断D中样本在属性集合中取值一样或属性集为空集,那么将node标记为样本中样本数目最多的类别,并将Node设置为叶结点。从A属性集合中划分出属性a,然后对a中的每一个属性ai,将D样本集在属性a上取ai的样本集记为Di,然后如果Di为空集,那么将该node结点标记为样本最多的类;如果Di不是空集,那么将按照该node结点向下,继续以Di作为样本集,将A中除去a的集合作为新的属性集合从而进行下一步的划分。这样一来就生成了一个决策树。

上述过程中重点注意的是属性划分选择的过程:

尽可能使得结点的纯度越来越高。这里使用信息熵来进行对样本纯度的度量。

信息熵:是将样本集中的所有类别的样本的概率进行一个求和之后求负。也就是说信息熵越小D样本集的纯度越高。

信息增益:对某一个属性a的取值集合,如果使用该集合对样本集D进行划分,那么产生v个分支结点,第V个分支结点包含了D中所有属性取值为V的样本集合。然后使用上述的信息熵的计算公式对D中的样本进行计算,然后对V个结点进行简单的权重赋值之后进行求和,从而得到了对D样本集合的信息增益的第二个式子。

一般来说信息增益公式中的第一个式子对应于D样本集的综合信息熵,第二个式子就是对应于属性集合a中的每一个取值的分支结点的信息熵乘上权重的和。

使用信息增益最大的属性用来进行划分比较好。

使用增益率也可以生成决策树,使用该方法的主要原因是:由于使用增益准测具有一定的对使用属性取值较多的属性划分样本集合的偏好。这里的增益率使用了分子是原来的信息增益准则式子,分母使用的是属性a的固有值。属性a的可能取值数目越大,那么该值就会越大。

使用增益率是在先使用增益准则获得比平均水平高的属性,然后再选择增益率较高的。

CART决策树使用的基尼指数来选择划分属性,该指数反映的是从数据集合中选择两个数据具有不同类别划分的概率。那么该指数越小数据集D的纯度越高。

使用的基尼指数划分属性的公式为:将每一个属性划分得到的V个样本集合对应的V个分支结点,对于每一个结点得到对应的信息熵大小,然后使用权重进行相乘之后再进行求和,从而得到对应的基尼指数定义。那么选择基尼指数最小的属性来对样本集进行最优划分。

为了进一步实现对于决策树划分的时间和空间效能的提升,可以采用预剪枝和后剪枝策略对决策树进行剪枝。评判是否应当进行剪枝的评价准则是:查看剪枝前后决策树对验证集数据划分的结果正确率,然后再决定是否进行剪枝或更进一部的划分。

连续与缺失值处理:对于具有连续值的属性划分来说,首先取得t划分之后的数据集,这里的t一般取中间值也就是将数据集划分为两个相同大小但是类别不同的集合,同时对每个类别的集合,将其中的两个连续数据之间的中位点作为候选划分点。然后使用信息增益划分规则,从而可以得到基于连续属性进行划分的决策树。

如果当前的划分属性为连续属性,那么该属性还可以作为其后代结点的划分属性。

对于缺失值的处理:就是将无缺失值样本集的信息增益及不同属性划分的结果得到,然后乘上无缺失值样本集在整体样本集合中占的比例。对于每一个属性均进行上述的乘法,则可以得到每一个结点的信息增益。

多变量决策树的实现:

将每一个属性看作坐标轴,那么d个属性描述的样本就对应了d维空间中的是一个数据点,那么对样本的分类就对应了在d维空间中寻找不同类样本之间的分类边界。

需要注意的是:每一个类别对应的是一个轴。

多变量决策树就是可以将上述的和坐标轴平行的线段变为斜线段。此时,每一个分支结点需要处理不再是对于某一个属性,而是多个属性组成的一个线性分类器。那么这样来说,和单变量对应的决策树来说,多变量决策树中使用不是书信进行最优划分而是选择一个合适的线性分类器。

以上是关于决策数量和样本类别数不相等的原因的主要内容,如果未能解决你的问题,请参考以下文章

Decision tree——决策树

机器学习:决策树(基尼系数)

机器学习-决策树最优类别属性选择的三个方法

第4章 决策树理解记录

决策树

6-机器学习-样本类别分布不均衡处理之过抽样和欠抽样