狄利克雷语义增强的在线流文本聚类
Posted 霏微袭雨
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了狄利克雷语义增强的在线流文本聚类相关的知识,希望对你有一定的参考价值。
狄利克雷语义增强的在线流文本聚类
本文参考: “An Online Semantic-enhanced Dirichlet Model for Short Text Stream Clustering”
论文连接:https://www.aclweb.org/anthology/2020.acl-main.70.pdf
GitHub:https://github.com/JayKumarr/OSDM
dirichlet过程先验知识
目标描述
S t = d t t = 1 ∞ S_t=\\d_t\\^\\infty_t=1 St=dtt=1∞ 表示 d t d_t dt表示t时刻到达的document,而每一个 d t 表示 w 1 , w 2 , … , w n d_t表示\\w_1,w_2,\\dots,w_n\\ dt表示w1,w2,…,wn,表示有n个word,而且每个document所包含的word的数量是不一样的。聚类任务的关键就是将相似的文章聚成几个类族,用公式来表示即为 Z = z t t = 1 ∞ Z=\\z_t\\^\\infty_t=1 Z=ztt=1∞,其中 z t z_t zt表示一个类别,即 z t = d 1 z t , d 2 z t , … , d n z t z_t=\\d_1^z_t,d_2^z_t,\\dots,d_n^z_t\\ zt=d1zt,d2zt,…,dnzt,有n篇文章属于 z t z_t zt类别,注意每篇文章的类别只能是一个,故 z i 和 z j z_i和z_j zi和zj之间没有交集。
先验知识Dirichlet过程
混合模型基础
如果用高斯混合模型举例来说,单个高斯模型,可以表示为 P ( x ∣ θ ) = 1 2 π σ 2 e x p ( − ( x − μ ) 2 2 σ 2 ) P(x|\\theta)=\\frac1\\sqrt2\\pi\\sigma^2exp(-\\frac(x-\\mu)^22\\sigma^2) P(x∣θ)=2πσ21exp(−2σ2(x−μ)2),如果x为高维数据,则是 P ( x ∣ θ ) = 1 2 π σ D / 2 ∣ Σ 1 / 2 ∣ e x p ( − ( x − μ ) T Σ − 1 ( x − μ ) 2 ) P(x|\\theta)=\\frac12\\pi\\sigma^D/2|\\Sigma^1/2|exp(-\\frac(x-\\mu)^T\\Sigma^-1(x-\\mu)2) P(x∣θ)=2πσD/2∣Σ1/2∣1exp(−2(x−μ)TΣ−1(x−μ)),而高斯混合模型可以描述为 P ( x ∣ θ ) = ∑ k = 1 K α k ϕ ( x ∣ θ k ) P(x|\\theta)=\\sum_k=1^K\\alpha_k\\phi(x|\\theta_k) P(x∣θ)=∑k=1Kαkϕ(x∣θk),表示有k个单个高斯模型,用来描述多个属性, α k \\alpha_k αk表示观测数据集属于k个子模型的概率。
Dirichlet过程模型
Dirichlet分布是Beta分布在高维情形的推广,就是一个混合模型.现在介绍一下beta分布,在贝叶斯框架常作为概率的概率分布。举个例子如抛硬币,如果用贝叶斯分布求其后验分布p过程中,即 P ( q ∣ x ) P ( x ) = P ( q ) P ( x ∣ q ) P(q|x)P(x)=P(q)P(x|q) P(q∣x)P(x)=P(q)P(x∣q)(求正面的概率,通过很少次数抛硬币实验次数是很难得出p=1/2这个结论),在这个例子中假如x为硬币的正面,我们可以假设先验概率p(q)为零到一的均匀分布,同时可以确定 P ( x ∣ q ) P(x|q) P(x∣q)的分布,模拟n次抛硬币,P(x)无关可以舍弃,将等式右边式子整合既可以得到beta分布,最后为 P ( q ∣ x ) = ( x ) α − 1 ( 1 − x ) β − 1 B ( α , β ) P(q|x)=\\frac(x)^\\alpha-1(1-x)^\\beta-1B(\\alpha,\\beta) P(q∣x)=B(α,β)(x)α−1(1−x)β−1。进一步升华,则可以假设是一个骰子,有六个面,则如同上面所说的混合模型一样,可以得到Direchlet模型, D i r ( X , α ) = ∏ i d x i α − 1 B ( α ) Dir(X,\\mathbf\\alpha)=\\frac\\prod_i^dx_i^\\alpha-1B(\\mathbf\\alpha) Dir(X,α)=B(α)∏idxiα−1,其中B是为了使概率为1的标准概率模型,是分子的积分。
产生Dirichlet过程三种方式
PUS
poly urn模型构造狄利克雷过程,假设我们有一个罐子,(初始时刻从base分布中取出一个球放入罐子中)从里面拿出一个球,如果是黑色,那么我们产生一个新的颜色球,并和原来的球一起放入罐子中,如果不是黑球那么再拿一个和这个球颜色一样的球放入罐子中,如果拿出的是黑球,不再是重新拿一个新的颜色,而是从base分布中随机选取一个颜色放入罐子中, 该过程可以描述为 p ( G ∣ θ 1 ^ , … , θ N ^ ) = D P ( α + N , 1 α + N ( α H + ∑ i = 1 N δ ( θ , θ ^ i ) ) ) p(G|\\hat\\theta_1,\\dots,\\hat\\theta_N)=DP(\\alpha+N,\\frac1\\alpha+N(\\alpha H+\\sum_i=1^N\\delta(\\theta,\\hat\\theta_i))) p(G∣θ1^,…,θN^)=DP(α+N,α+N1(αH+∑i=1Nδ(θ,θ^i)))。前面是一个参数,后半部分可以看为先验分布 G 0 G_0 G0。
CRP
中国餐馆构造狄利克雷模型,顾客进入餐馆可以按照一定的概率
n
k
α
+
以上是关于狄利克雷语义增强的在线流文本聚类的主要内容,如果未能解决你的问题,请参考以下文章 如何在 Scikit-learn 中使用“狄利克雷过程高斯混合模型”? (n_components?)