困惑度 (perplexity)
Posted Data+Science+Insight
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了困惑度 (perplexity)相关的知识,希望对你有一定的参考价值。
困惑度 (perplexity)
在自然语言处理中,对于一个语言模型,一般用困惑度来衡量它的好坏,困惑度越低,说明语言模型面对一句话感到困惑的程度越低,语言模型就越好。
对于LDA模型,最常用的两个评价方法困惑度(Perplexity)、相似度(Corre)。
其中困惑度可以理解为对于一篇文章d,所训练出来的模型对文档d属于哪个主题有多不确定,这个不确定成都就是困惑度。困惑度越低,说明聚类的效果越好。
对于不同Topic所训练出来的模型,计算它的困惑度。最小困惑度所对应的Topic就是最优的主题数。
困惑度 (perplexity)
一种衡量指标,用于衡量模型 (#model)能够多好地完成任务。例如,假设任务是读取用户使用 智能手机键盘输入字词时输入的前几个字母,然后列出一组可能的完整字词。此任务的困惑 度 (P) 是:为了使列出的字词中包含用户尝试输入的实际字词,您需要提供的猜测项的个数。
困惑度与交叉熵 (#cross-entropy)的关系如下:
什么是Perplexity(困惑度)?
在信息论中,perplexity(困惑度)用来度量一个概率分布或概率模型预测样本的好坏程度。它也可以用来比较两个概率分布或概率模型。(译者:应该是比较两者在预测样本上的优劣)低困惑度的概率分布模型或概率模型能更好地预测样本。
1.概率分布的困惑度
以上是关于困惑度 (perplexity)的主要内容,如果未能解决你的问题,请参考以下文章