NLP学不会打我 半小时学会基本操作 14 文本处理 <PAD><EOS><UNK><GO>
Posted 我是小白呀
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了NLP学不会打我 半小时学会基本操作 14 文本处理 <PAD><EOS><UNK><GO>相关的知识,希望对你有一定的参考价值。
概述
从今天开始我们将开启一段自然语言处理 (NLP) 的旅程. 自然语言处理可以让来处理, 理解, 以及运用人类的语言, 实现机器语言和人类语言之间的沟通桥梁.
文本处理
我们在进行文本处理的时候, 经常会遇到句子长度不一致, 遇到奇奇怪怪的符号等问题. 这时候我们就需要特殊字符来帮助我们解决这些问题.
<PAD>
可以帮助我们填充句子长度不足的部分. 在我们 NLP 训练的过程中, 我们会将数据按 Batch 输入, 但是这些 Batch 必须拥有相同的长度.
<UNK>
可以帮助我们替换词汇表里不存在的字符, 例如一些低频词, 或者低频字, 或者特殊符号.
<GO>
会放在句子的开头, 用于告诉模型这是句子输入的开始, 即第一个时间步长的输入.
<EOS>
会放在句子的结尾, 用于告诉模型这是句子输入的结束.
以上是关于NLP学不会打我 半小时学会基本操作 14 文本处理 <PAD><EOS><UNK><GO>的主要内容,如果未能解决你的问题,请参考以下文章
NLP⚠️学不会打我! 半小时学会基本操作 3⚠️ 词袋模型
NLP⚠️学不会打我! 半小时学会基本操作 7⚠️ Word2vec 电影影评建模