统计语言模型Python实现

Posted 2022-09-01 小基基o_O

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了统计语言模型Python实现相关的知识，希望对你有一定的参考价值。

原理简述

统计语言模型（Statistical Language Model），可用于计算一个句子的合理程度。
$S$ 表示句子，由有序的 $n$ 个词 $w_1,w_2,w_3,..w_n$ 组成，句子概率 $P (S)$ 的计算公式如下：

$P(S) =P(w_1,w_2,...w_n) =P(w_1)P(w_2|w_1)P(w_3|w_1,w_2)...P(w_n|w_1,w_2,...w_n-1)$

$P(S)=P(w_1)P(w_2)...P(w_n)=\\prod^n_i=1P(w_i)$
$\\log P(S) = \\sum^n_i=1 \\log P(w_i)$

k=1；bigram；C表示count
$P_Add-1(w_i|w_i-1)=\\fracC(w_i-1,w_i)+1C(w_i-1)+V$
e.g.

我很帅
她很美
$P(帅|很)=\\frac1+12+5=\\frac27$
$P(美|很)=\\frac1+12+5=\\frac27$
$P(我|很)=\\frac0+12+5=\\frac17$