数据平滑技术|自然语言
Posted 桃陉
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了数据平滑技术|自然语言相关的知识,希望对你有一定的参考价值。
写在前面
∙
\\bullet
∙ 因为对于N-gram模型
来说,由于语料库过小
或者词语过于专业
可能会出现概率为0
的情况。但是这个词语肯定会有出现的概率不可能为0,为了解决这类零概率问题,引入了平滑技术。
∙
\\bullet
∙ “平滑”处理的基本思想是“劫富济贫”
,即提高低概率降低高概率,尽量使概率分布趋于平均。
1.加法平滑
1.1加1法
先来介绍一种简单的情况,对于二元语法
(2-gram或者 Bigram)来说,我们可以使用一种非常简单的方法,即“加一法”
。
公式如下:
P
(
w
i
−
1
∣
w
i
)
=
P
(
w
i
−
1
w
i
)
+
1
P
(
w
i
)
+
∣
V
∣
{\\color{Violet}P(w_{i-1}|w_{i})=\\frac{P(w_{i-1}w_{i})+1}{P(w_{i})+|V|}}
P(wi−1∣wi)=P(wi)+∣V∣P(wi−1wi)+1
其中 P ( w i − 1 w i ) {\\color{Red}P(w_{i-1}w_{i})} P(wi−1wi) 是 w i − 1 w i \\color{Red}w_{i-1}w_{i} wi−1wi 同时出现的概率, P ( w i ) \\color{Red}P(w_{i}) P(wi) 是 w i \\color{Red}w_{i} wi 出现的概率, ∣ V ∣ \\color{Red}|V| ∣V∣ 是所有词的个数, P ( w i − 1 ∣ w i ) \\color{Red}P(w_{i-1}|w_{i}) P(wi−1∣wi)是在 w i \\color{Red}w_{i} wi 的概率下前面出现 w i − 1 \\color{Red}w_{i-1} wi−1 的概率。
1.2加法平滑方法
在N-gram
模型中,常见的做法是在N元对出现的次数上加一个常数
δ
\\delta
δ,在分母上加上
δ
∣
V
∣
\\delta|V|
δ∣V∣,其余和二元语法完全相同。
公式如下:
P
(
w
i
−
n
+
1
i
−
1
∣
w
i
)
=
P
(
w
i
−
n
+
1
i
−
1
w
i
)
+
δ
P
(
w
i
)
+
δ
∣
V
∣
{\\color{Violet}P(w_{i-n+1}^{i-1}|w_{i})=\\frac{P(w_{i-n+1}^{i-1}w_{i})+\\delta}{P(w_{i})+\\delta|V|}}
P(wi−n+1i−1∣wi)=P(wi)+δ∣V∣P(wi−n+1i−1wi)+δ
其中 w i − n + 1 i − 1 \\color{Red}w_{i-n+1}^{i-1} wi−n+1i−1 表示 w i \\color{Red}w_{i} wi 前面的 N N N 个词。
2.古德-图灵(Good-Turing)估计法
对于N-gram
模型中出现了r
次的
w
i
−
n
+
1
i
\\color{Red}w_{i-n+1}^{i}
wi−n+1i,我们把它估计为
r
∗
=
(
r
+
1
)
n
r
+
1
n
r
\\color{Violet}r^{*}=(r+1)\\frac{n_{r+1}}{n_{r}}
r∗=(r+1)nrnr+1
其中
n
r
\\color{Red}n_{r}
nr 表示出现了r次的N元对的个数,所以N-gram
中出现了次数为r的N元对
w
i
−
n
+
1
i
\\color{Red}w_{i-n+1}^{i}
wi−n+1i 的出现概率为:
P
G
T
(
w
i
−
n
+
1
i
)
=
r
∗
∑
r
=
0
∞
r
∗
{\\color{Violet}P_{GT}(w_{i-n+1}^{i})=\\frac{r^{*}}{\\sum_{r=0}^{\\infty}r^{*}}}
PGT(wi−n+1i)=∑r=0∞r∗r∗
古德-图灵估计公式中缺乏利用低元模型对高元模型插值的思想,通常不单独使用,而作为其他平滑算法中的一个计算工具。
3.回退平滑(Katz回退法)
当某一事件在样本中的概率大于阈值K
(通常取0或1)时,运用最大似然估计
的减值法
来估计其概率。否则使用低阶
的,即用
(
n
−
1
)
g
r
a
m
(n-1)gram
(n−1)gram 的概率来替代
n
−
g
r
a
m
n-gram
n−gram 的概率,这种替代受归一化因子
α
α
α 的作用。
公式如下:
P k a t z ( w i − 1 i ) = { d r c ( w i − 1 i ) c ( w i − 1 ) c ( w i − 1 w i ) = r > 0 α ( w i − 1 ) P M L ( w i ) c ( w i − 1 w i ) = r = 0 {\\color{Violet}P_{katz}(w_{i-1}^{i})=\\left\\{\\begin{matrix} d_{r}\\frac{c(w_{i-1}^{i})}{c(w_{i-1})} & c(w_{i-1}w_{i})=r>0\\\\ \\alpha (w_{i-1})P_{ML}(w_{i}) & c(w_{i-1}w_{i})=r=0 \\end{matrix}\\right.} Pkat以上是关于数据平滑技术|自然语言的主要内容,如果未能解决你的问题,请参考以下文章
从顶点到片段着色器的平滑 64 位输入 - “错误 C7570:64 位输入应该是平坦的”
视频什么是非线性模型与R语言多项式回归局部平滑样条 广义相加GAM分析工资数据|数据分享|附代码数据