NLP 语料分类不均衡/数据倾斜/data skew

Posted pocahontas

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了NLP 语料分类不均衡/数据倾斜/data skew相关的知识,希望对你有一定的参考价值。

数据层面:

过抽样

  • 直接复制,即不断复制类别样本数少的类别样本。
  • 插值法:通过对样本归一化,采样,求得样本分布,极值,均值等,然后根据样本分布,极值,均值来生成新样本来扩充样本数目。

欠抽样:

  • 直接删除,随机减少多数类样本的数量。

算法层面:

  • Weighted loss function,一个处理非平衡数据常用的方法就是设置损失函数的权重,使得少数类判别错误的损失大于多数类判别错误的损失。在python的sk-learn中我们可以使用class_weight参数来设置权重,提高少数类权重,例如设置为多数类的10倍

 

采用文本生成的方式,解决文本样本不均衡的问题。
本文首先分析样本数少的类别,通过文本句法依赖分析,文本词性标记分析词的相关属性,然后采用同义词替换的方式生成新的文本。

以上是关于NLP 语料分类不均衡/数据倾斜/data skew的主要内容,如果未能解决你的问题,请参考以下文章

NLP 文本预处理

如何使用 imdb Movie_Reviews 语料库在 SVM 分类 (NLP) 中实现否定特征

机器学习/NLP 文本分类:从文本文件的语料库中训练模型 - scikit learn

NLP文本数据分析&文本特征处理&文本数据增强

NLTK/NLP 构建多对多/多标签主题分类器

深度学习之Pytorch——如何使用张量处理文本数据集(语料库数据集)