困惑度 (perplexity)

Posted Data+Science+Insight

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了困惑度 (perplexity)相关的知识,希望对你有一定的参考价值。

困惑度 (perplexity)

 

 

在自然语言处理中,对于一个语言模型,一般用困惑度来衡量它的好坏,困惑度越低,说明语言模型面对一句话感到困惑的程度越低,语言模型就越好。

 

对于LDA模型,最常用的两个评价方法困惑度(Perplexity)、相似度(Corre)。

其中困惑度可以理解为对于一篇文章d,所训练出来的模型对文档d属于哪个主题有多不确定,这个不确定成都就是困惑度。困惑度越低,说明聚类的效果越好。

对于不同Topic所训练出来的模型,计算它的困惑度。最小困惑度所对应的Topic就是最优的主题数。

 

困惑度 (perplexity)

一种衡量指标,用于衡量模型 (#model)能够多好地完成任务。例如,假设任务是读取用户使用 智能手机键盘输入字词时输入的前几个字母,然后列出一组可能的完整字词。此任务的困惑 度 (P) 是:为了使列出的字词中包含用户尝试输入的实际字词,您需要提供的猜测项的个数。

困惑度与交叉熵 (#cross-entropy)的关系如下:

 

 

什么是Perplexity(困惑度)?

在信息论中,perplexity(困惑度)用来度量一个概率分布或概率模型预测样本的好坏程度。它也可以用来比较两个概率分布或概率模型。(译者:应该是比较两者在预测样本上的优劣)低困惑度的概率分布模型或概率模型能更好地预测样本。

1.概率分布的困惑度 

以上是关于困惑度 (perplexity)的主要内容,如果未能解决你的问题,请参考以下文章

熵与互信息

信息论:熵与互信息

在pytorch中计算困惑度

计算地理接近度的公式

用srilm生成语言模型

计算两个列表之间的相似度