困惑度 (perplexity)

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了困惑度 (perplexity)相关的知识，希望对你有一定的参考价值。

在自然语言处理中，对于一个语言模型，一般用困惑度来衡量它的好坏，困惑度越低，说明语言模型面对一句话感到困惑的程度越低，语言模型就越好。

对于LDA模型，最常用的两个评价方法困惑度（Perplexity）、相似度（Corre）。

其中困惑度可以理解为对于一篇文章d，所训练出来的模型对文档d属于哪个主题有多不确定，这个不确定成都就是困惑度。困惑度越低，说明聚类的效果越好。

对于不同Topic所训练出来的模型，计算它的困惑度。最小困惑度所对应的Topic就是最优的主题数。

困惑度 (perplexity)

一种衡量指标，用于衡量模型 (#model)能够多好地完成任务。例如，假设任务是读取用户使用智能手机键盘输入字词时输入的前几个字母，然后列出一组可能的完整字词。此任务的困惑度 (P) 是：为了使列出的字词中包含用户尝试输入的实际字词，您需要提供的猜测项的个数。

困惑度与交叉熵 (#cross-entropy)的关系如下：

什么是Perplexity(困惑度)?

在信息论中，perplexity(困惑度)用来度量一个概率分布或概率模型预测样本的好坏程度。它也可以用来比较两个概率分布或概率模型。（译者：应该是比较两者在预测样本上的优劣）低困惑度的概率分布模型或概率模型能更好地预测样本。

1.概率分布的困惑度

以上是关于困惑度 (perplexity)的主要内容，如果未能解决你的问题，请参考以下文章