统计语言模型

Posted auhz

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了统计语言模型相关的知识,希望对你有一定的参考价值。

从基于规则到基于统计的语言模型的转变

基于马尔科夫假设,即任意一个词出现的概率只与它前面的词有关,可得到一个二元模型。乃至基于一个N-1阶马尔科夫假设,对应的语言模型是N元模型。一般N取值非常小,通常为2,可取到3或者4。

对于样本中未出现的零概率问题,使用古德-图灵估计方法进行平滑处理。对于出现频率超过一定阈值的词,概率估计就是相对频度,对于小于的词,概率估计就会小于他们的相对频度,次数越小,折扣越多,对于未看见的词也给予了一个比较小的频度,使得概率估计平滑。

以上是关于统计语言模型的主要内容,如果未能解决你的问题,请参考以下文章

统计语言模型

统计语言模型

统计语言模型

读《数学之美》第三章 统计语言模型

R语言glm拟合logistic回归模型:模型评估(计算模型拟合的统计显著性)模型评估(赤信息AIC指标计算)

统计语言模型Python实现