NLP杂点
Posted yuehouse
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了NLP杂点相关的知识,希望对你有一定的参考价值。
1.停用词 stop words: 在处理自然语言数据(或文本)之前或之后会自动过滤掉某些字或词。
停用词都是人工输入、或者由一个停用词表导入。
2.jieba是目前最好的 Python 中文分词组件,它主要有以下 3 种特性:
支持 3 种分词模式:
- 精确模式,试图将句子最精确地切开,适合文本分析;
- 全模式,把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义;
- 搜索引擎模式,在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。
3.正则化表达式
https://www.runoob.com/regexp/regexp-tutorial.html
4.分词的基本概念与生成词向量矩阵
https://blog.csdn.net/chen_yiwei/article/details/88139054#_36
5.NLP系列学习:文本分词
https://www.jianshu.com/p/7377f6d24e87
以上是关于NLP杂点的主要内容,如果未能解决你的问题,请参考以下文章