NLP 语料分类不均衡/数据倾斜/data skew

Posted 2020-11-22 pocahontas

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了NLP 语料分类不均衡/数据倾斜/data skew相关的知识，希望对你有一定的参考价值。

数据层面：

过抽样

欠抽样:

算法层面：

Weighted loss function，一个处理非平衡数据常用的方法就是设置损失函数的权重，使得少数类判别错误的损失大于多数类判别错误的损失。在python的sk-learn中我们可以使用class_weight参数来设置权重，提高少数类权重，例如设置为多数类的10倍

采用文本生成的方式，解决文本样本不均衡的问题。

本文首先分析样本数少的类别，通过文本句法依赖分析，文本词性标记分析词的相关属性，然后采用同义词替换的方式生成新的文本。

以上是关于NLP 语料分类不均衡/数据倾斜/data skew的主要内容，如果未能解决你的问题，请参考以下文章