自然语言处理-主题模型

Posted 2020-12-29

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了自然语言处理-主题模型相关的知识，希望对你有一定的参考价值。

主题模型理论（LDA）：
一篇文章的每个词都是以一定概率选择了某个主题，并从这个主题中以一定概率选择某个词语而组成的。
P（单词|文档）=P（单词|主题）*P（主题|文档）
对于语料库中的每篇文档，LDA定义了如下生成过程（generative process）:
1.对每篇文档，从主题分布中抽取一个主题；
2.从上述被抽到的主题所对应的单词分布中抽取一个单词；
3.重复上述过程直至文档中的每一个单词。

我们通过观测，得到了“知道主题是什么，就用什么单词”的文本生成模型，那么根据贝叶斯定律，我们就可以反过来推出“看见用什么单词，我就知道主题是什么”。

PLSA根LDA的本质区别就在于它们去估计未知参数所采用的思想不同，前者用的是频率派思想，后者用的是贝叶斯派思想。

以上是关于自然语言处理-主题模型的主要内容，如果未能解决你的问题，请参考以下文章

自然语言处理NLP之主题模型LDA(Latent Dirichlet Allocation)语义分析词义消歧词语相似度