NLP 语料分类不均衡/数据倾斜/data skew
Posted pocahontas
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了NLP 语料分类不均衡/数据倾斜/data skew相关的知识,希望对你有一定的参考价值。
数据层面:
过抽样
- 直接复制,即不断复制类别样本数少的类别样本。
- 插值法:通过对样本归一化,采样,求得样本分布,极值,均值等,然后根据样本分布,极值,均值来生成新样本来扩充样本数目。
欠抽样:
- 直接删除,随机减少多数类样本的数量。
算法层面:
- Weighted loss function,一个处理非平衡数据常用的方法就是设置损失函数的权重,使得少数类判别错误的损失大于多数类判别错误的损失。在python的sk-learn中我们可以使用class_weight参数来设置权重,提高少数类权重,例如设置为多数类的10倍
采用文本生成的方式,解决文本样本不均衡的问题。
本文首先分析样本数少的类别,通过文本句法依赖分析,文本词性标记分析词的相关属性,然后采用同义词替换的方式生成新的文本。
以上是关于NLP 语料分类不均衡/数据倾斜/data skew的主要内容,如果未能解决你的问题,请参考以下文章
如何使用 imdb Movie_Reviews 语料库在 SVM 分类 (NLP) 中实现否定特征