NLP杂点

Posted 2022-03-31 yuehouse

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了NLP杂点相关的知识，希望对你有一定的参考价值。

1.停用词 stop words: 在处理自然语言数据（或文本）之前或之后会自动过滤掉某些字或词。

停用词都是人工输入、或者由一个停用词表导入。

2.jieba是目前最好的 Python 中文分词组件，它主要有以下 3 种特性：

支持 3 种分词模式：

精确模式，试图将句子最精确地切开，适合文本分析；
全模式，把句子中所有的可以成词的词语都扫描出来, 速度非常快，但是不能解决歧义；
搜索引擎模式，在精确模式的基础上，对长词再次切分，提高召回率，适合用于搜索引擎分词。

3.正则化表达式

https://www.runoob.com/regexp/regexp-tutorial.html

4.分词的基本概念与生成词向量矩阵

https://blog.csdn.net/chen_yiwei/article/details/88139054#_36

5.NLP系列学习：文本分词

https://www.jianshu.com/p/7377f6d24e87

以上是关于NLP杂点的主要内容，如果未能解决你的问题，请参考以下文章

docker知识杂点

Qt根据汉字生成位图，可连续调用，生成的位图不会有杂点

ps中编辑的图片在保存为.jpg格式后图片出现杂点，但保存为.png格式后图片清晰度没变，怎么回事？

thinkphp怎么实现图片验证码

nlp是啥意思