NLP 文本预处理

Posted 2022-03-08 allen-rg

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了NLP 文本预处理相关的知识，希望对你有一定的参考价值。

1、不同类别文本量统计，类别不平衡差异

2、文本长度统计

3、文本处理，比如文本语料中简体与繁体共存，这会加大模型的学习难度。因此，他们对数据进行繁体转简体的处理。

同时，过滤掉了对分类没有任何作用的停用词，从而降低了噪声。

4、上文提到训练数据中，存在严重的样本不均衡问题，如果不对该问题做针对性的处理，则会严重制约模型效果指标的提升。

通过对数据进行了大量的分析后，他们提出了一个简单有效的缓解样本不均衡问题的方法，基于标签传播的数据增强方法。

【如果标题A与标题B一致，而标题A与标题C一致，那么可以得出结论，标题B与标题C一致。

同理，如果标题A与标题B一致，而标题A与标题D不一致，那么可以得出结论，标题B与标题D也不一致。

此外，Travel团队还通过将新闻对中的两条文本相互交换位置，来扩充训练数据集。】

以上是关于NLP 文本预处理的主要内容，如果未能解决你的问题，请参考以下文章