机器学习笔记 NLP ngram

Posted UQI-LIUWJ

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了机器学习笔记 NLP ngram相关的知识,希望对你有一定的参考价值。

n-gram是deep-learning时代之前的语言模型

1 n-gram

n-gram是连续的n个词组成的序列

        

2 基于n-gram的语言模型

2.1 马尔科夫假设

一个单词的概率,只依赖于之前的n-1个单词

                ​​​​​​​                               

   2.2 举例

             

2.3 n-gram的问题

2.3.1 距离太远的词

        不难发现,之前离得太远的词,即使对预测很有帮助,也不会被考虑

 

2.3.2 稀疏性问题

 

以上是关于机器学习笔记 NLP ngram的主要内容,如果未能解决你的问题,请参考以下文章

中文NLP笔记:13 用 Keras 实现一个简易聊天机器人

NLP_统计语言模型

GitHub | 机器学习&深度学习&nlp&cv从入门到深入全套资源分享

机器学习实战读书笔记——机器学习概览

n-gram语言模型

机器学习笔记:自监督学习