[一起面试AI]NO.10 什么是数据不平衡问题,应该如何解决

Posted sabai

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了[一起面试AI]NO.10 什么是数据不平衡问题,应该如何解决相关的知识,希望对你有一定的参考价值。

数据不平衡又称样本比例失衡,比如二分类问题,如果标签为1的样本占总数的99%,标签为0的样本占比1%则会导致判断失误严重,准确率虚高。

常见的解决不平衡问题的方法如下。

  1. 数据采样

    数据采样分为上采样和下采样,上采样是将少量的数据通过重复复制使得各类别比例均衡,不过很容易导致过拟合问题,所以需要在新生成的数据中加入随机扰动。

    下采样则相反,下采样是从多数类别中筛选出一部分从而使得各类别数据比例维持在正常水平,但容易丢失比较重要的信息,所以应该多次随机下采样。

  2. 数据合成是利用已有样本的特征相似性生成更多的样本。

  3. 加权是通过不同类别的错误施加不同的权重惩罚,使得ML时更侧重样本较少并容易出错的样本。

  4. 一分类

    当正负样本比例失衡时候,可以利用One-class SVM,该算法利用高斯核函数将样本空间映射到核空间,在核空间找到一个包含所有数据的高维球体。如果测试数据位于这个高维球体之,则归为多数类,否则为少数类。

    ?

    微信搜索:我们都是码农,点个关注不迷路啦!

    ?

以上是关于[一起面试AI]NO.10 什么是数据不平衡问题,应该如何解决的主要内容,如果未能解决你的问题,请参考以下文章

AI常见面试35题

基因中啥叫作连锁不平衡,啥叫连锁

每日一道面试题-平衡二叉树的判断

Java开发社招面试经验:带你快速通过字节跳动面试

[一起面试AI]NO.9 如何判断函数凸或非凸

如何处理数据不平衡问题