自然语言处理NLP

Posted 2021-01-10

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了自然语言处理NLP相关的知识，希望对你有一定的参考价值。

词性标注

隐马尔科夫模型HMM

是一种统计模型，用于描述一个含有隐含未知参数的马尔科夫过程，难点在于从可观察的参数中确定此过程的隐含参数，然后利用这些参数进行下一步的分析，可当做一种转移矩阵；
一个隐马尔科夫模型是一个三元组(pi, A, B);
隐马尔科夫模型的三大基本问题与解决方案包括：
- 对于一个观察序列匹配最可能的系统一一评估，使用前向算法(forward algorithm)解决；
- 对于已生成的一个观察序列，确定最可能的隐藏状态序列一一解码，使用维特比算法(Viterbi algorithm)解决；
- 对于已生成的观察序列，决定最可能的模型参数一一学习，使用前向-后向算法(forward backward algorithm)解决；

文本分类

评估

文本聚类

聚类与分类的区别

聚类分析的是研究事先在没有训练的条件下如何把样本划分为若干类的问题；
而在分类中，对于目标数据库中存在哪些类是事先知道的，需要做的是将每一条记录分别属于的类别标记出来；
聚类需要解决的问题是将给定的若干无标记的模式聚集起来让它们成为有意义的聚类，聚类是在预先不知道目标数据库到底有多少泪的情况下，希望将所有记录组成不同的类或聚类，并在这种分类情况下，以某种度量为标准的相似度，在同一聚类之间最小化，而在不同聚类之间最大化；
与分类不同，无监督学习不依赖预先定义的类或带类标记的训练实例，需要由聚类学习算法自动确定标记，而分类学习的实例或数据样本有类别标记；

以上是关于自然语言处理NLP的主要内容，如果未能解决你的问题，请参考以下文章