NLP 文本预处理
Posted allen-rg
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了NLP 文本预处理相关的知识,希望对你有一定的参考价值。
1、不同类别文本量统计,类别不平衡差异
2、文本长度统计
3、文本处理,比如文本语料中简体与繁体共存,这会加大模型的学习难度。因此,他们对数据进行繁体转简体的处理。
同时,过滤掉了对分类没有任何作用的停用词,从而降低了噪声。
4、上文提到训练数据中,存在严重的样本不均衡问题,如果不对该问题做针对性的处理,则会严重制约模型效果指标的提升。
通过对数据进行了大量的分析后,他们提出了一个简单有效的缓解样本不均衡问题的方法,基于标签传播的数据增强方法。
【如果标题A与标题B一致,而标题A与标题C一致,那么可以得出结论,标题B与标题C一致。
同理,如果标题A与标题B一致,而标题A与标题D不一致,那么可以得出结论,标题B与标题D也不一致。
此外,Travel团队还通过将新闻对中的两条文本相互交换位置,来扩充训练数据集。】
https://tech.meituan.com/2019/02/21/wsdm-cup-meituan-nlp-practice.html
以上是关于NLP 文本预处理的主要内容,如果未能解决你的问题,请参考以下文章