NLP初识:文本预处理
Posted ZSYL
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了NLP初识:文本预处理相关的知识,希望对你有一定的参考价值。
1. 文本预处理及其作用
文本语料在输送给模型前一般需要一系列的预处理工作, 才能符合模型输入的要求,
如: 将文本转化成模型需要的张量, 规范张量的尺寸等, 而且科学的文本预处理环节还将有效指导模型超参数的选择, 提升模型的评估指标.
2. 文本预处理中包含的主要环节
- 文本处理的基本方法
- 文本张量表示方法
- 文本语料的数据分析
- 文本特征处理
- 数据增强方法
2.1 文本处理的基本方法
- 分词
- 词性标注
- 命名实体识别
2.2 文本张量表示方法
- one-hot编码
- Word2vec
- Word Embedding
2.3 文本语料的数据分析
- 标签数量分布
- 句子长度分布
- 词频统计与关键词词云
2.4 文本特征处理
- 添加n-gram特征
- 文本长度规范
2.5 数据增强方法
- 回译数据增强法
重要说明:
在实际生产应用中, 我们最常使用的两种语言是中文和英文, 因此, 文本预处理部分的内容都将针对这两种语言进行讲解.
加油!
感谢!
努力!
以上是关于NLP初识:文本预处理的主要内容,如果未能解决你的问题,请参考以下文章