NLP 文本预处理

Posted allen-rg

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了NLP 文本预处理相关的知识,希望对你有一定的参考价值。

1、不同类别文本量统计,类别不平衡差异

 

2、文本长度统计

 

3、文本处理,比如文本语料中简体与繁体共存,这会加大模型的学习难度。因此,他们对数据进行繁体转简体的处理。

    同时,过滤掉了对分类没有任何作用的停用词,从而降低了噪声。

 

4、上文提到训练数据中,存在严重的样本不均衡问题,如果不对该问题做针对性的处理,则会严重制约模型效果指标的提升。

       通过对数据进行了大量的分析后,他们提出了一个简单有效的缓解样本不均衡问题的方法,基于标签传播的数据增强方法。

【如果标题A与标题B一致,而标题A与标题C一致,那么可以得出结论,标题B与标题C一致。

同理,如果标题A与标题B一致,而标题A与标题D不一致,那么可以得出结论,标题B与标题D也不一致。

此外,Travel团队还通过将新闻对中的两条文本相互交换位置,来扩充训练数据集。】

 

https://tech.meituan.com/2019/02/21/wsdm-cup-meituan-nlp-practice.html

以上是关于NLP 文本预处理的主要内容,如果未能解决你的问题,请参考以下文章

NLP 文本预处理

NLP文本特征处理&文本数据增强

自然语言处理(NLP)基于PaddleHub的文本审核

NLP文本生成模型数据准备及实战

自然语言处理(NLP)基于ERNIE语言模型的文本语义匹配

自然语言处理(NLP)文本数据处理实践