论文笔记 CReST：A Class-Rebalancing Self-Training Framework for Imbalanced Semi-Supervised Learning

Posted 2021-05-17 小葵花幼儿园园长

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了论文笔记 CReST：A Class-Rebalancing Self-Training Framework for Imbalanced Semi-Supervised Learning相关的知识，希望对你有一定的参考价值。

CReST

基础知识
- 不平衡数据
- 不平衡数据学习的方法

一些参考：

1.zhihu

基础知识

不平衡数据

什么是不平衡数据：我们的数据集样本类别极不均衡，以二分类问题为例，假设我们的数据集是 $S$ ，数据集中的多数类为 $S_{maj}$ ，少数类为 $S_{min}$ ，通常情况下把多数类样本的比例为 $100 : 1$ , $1000 : 1$ ，甚至是 $10000 : 1$ 这种情况下为不平衡数据，不平衡数据的学习即需要在如此分布不均匀的数据集中学习到有用的信息。

传统做法： 以降低总体分类精度为目标，将所有样本一视同仁，同等对待，造成了分类器在多数类的分类精度较高而在少数类的分类精度很低。传统的学习算法在不平衡数据集中具有较大的局限性。

不平衡数据学习的方法

针对不平衡数据，我们往往从数据和算法两个层面来进行处理：

数据层面：又可分为过抽样和欠抽样。

过抽样指的是增加少数类的样本数（可以直接重复已有数据，也可以按照一定规则合成少数类数据）；
欠抽样指的是减少多数类样本的数量，例如，可以将多数类样本分为“噪音样本”，“边界样本”，“安全样本”，我们将“噪音样本”和“边界样本”删除，只保留“安全样本”，这样就减少了多数类样本的数量。

算法层面：

代价敏感：可以给每个训练样本加权或者在算法中引入敏感因子
集成学习方法：即多个分类器，然后利用投票或者组合得到结果。又可以分为同态集成学习方法（同种分类器组合）和异态集成学习方法（多种分类器组合）
单类分类器方法：仅对少数类进行训练，例如运用SVM算法

以上是关于论文笔记 CReST：A Class-Rebalancing Self-Training Framework for Imbalanced Semi-Supervised Learning的主要内容，如果未能解决你的问题，请参考以下文章