狄利克雷语义增强的在线流文本聚类

Posted 霏微袭雨

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了狄利克雷语义增强的在线流文本聚类相关的知识,希望对你有一定的参考价值。

狄利克雷语义增强的在线流文本聚类

本文参考: “An Online Semantic-enhanced Dirichlet Model for Short Text Stream Clustering”
论文连接:https://www.aclweb.org/anthology/2020.acl-main.70.pdf
GitHub:https://github.com/JayKumarr/OSDM

dirichlet过程先验知识

目标描述

S t = d t t = 1 ∞ S_t=\\d_t\\^\\infty_t=1 St=dtt=1 表示 d t d_t dt表示t时刻到达的document,而每一个 d t 表示 w 1 , w 2 , … , w n d_t表示\\w_1,w_2,\\dots,w_n\\ dt表示w1,w2,,wn,表示有n个word,而且每个document所包含的word的数量是不一样的。聚类任务的关键就是将相似的文章聚成几个类族,用公式来表示即为 Z = z t t = 1 ∞ Z=\\z_t\\^\\infty_t=1 Z=ztt=1,其中 z t z_t zt表示一个类别,即 z t = d 1 z t , d 2 z t , … , d n z t z_t=\\d_1^z_t,d_2^z_t,\\dots,d_n^z_t\\ zt=d1zt,d2zt,,dnzt,有n篇文章属于 z t z_t zt类别,注意每篇文章的类别只能是一个,故 z i 和 z j z_i和z_j zizj之间没有交集。

先验知识Dirichlet过程

混合模型基础

如果用高斯混合模型举例来说,单个高斯模型,可以表示为 P ( x ∣ θ ) = 1 2 π σ 2 e x p ( − ( x − μ ) 2 2 σ 2 ) P(x|\\theta)=\\frac1\\sqrt2\\pi\\sigma^2exp(-\\frac(x-\\mu)^22\\sigma^2) P(xθ)=2πσ2 1exp(2σ2(xμ)2),如果x为高维数据,则是 P ( x ∣ θ ) = 1 2 π σ D / 2 ∣ Σ 1 / 2 ∣ e x p ( − ( x − μ ) T Σ − 1 ( x − μ ) 2 ) P(x|\\theta)=\\frac12\\pi\\sigma^D/2|\\Sigma^1/2|exp(-\\frac(x-\\mu)^T\\Sigma^-1(x-\\mu)2) P(xθ)=2πσD/2Σ1/21exp(2(xμ)TΣ1(xμ)),而高斯混合模型可以描述为 P ( x ∣ θ ) = ∑ k = 1 K α k ϕ ( x ∣ θ k ) P(x|\\theta)=\\sum_k=1^K\\alpha_k\\phi(x|\\theta_k) P(xθ)=k=1Kαkϕ(xθk),表示有k个单个高斯模型,用来描述多个属性, α k \\alpha_k αk表示观测数据集属于k个子模型的概率。

Dirichlet过程模型

Dirichlet分布是Beta分布在高维情形的推广,就是一个混合模型.现在介绍一下beta分布,在贝叶斯框架常作为概率的概率分布。举个例子如抛硬币,如果用贝叶斯分布求其后验分布p过程中,即 P ( q ∣ x ) P ( x ) = P ( q ) P ( x ∣ q ) P(q|x)P(x)=P(q)P(x|q) P(qx)P(x)=P(q)P(xq)(求正面的概率,通过很少次数抛硬币实验次数是很难得出p=1/2这个结论),在这个例子中假如x为硬币的正面,我们可以假设先验概率p(q)为零到一的均匀分布,同时可以确定 P ( x ∣ q ) P(x|q) P(xq)的分布,模拟n次抛硬币,P(x)无关可以舍弃,将等式右边式子整合既可以得到beta分布,最后为 P ( q ∣ x ) = ( x ) α − 1 ( 1 − x ) β − 1 B ( α , β ) P(q|x)=\\frac(x)^\\alpha-1(1-x)^\\beta-1B(\\alpha,\\beta) P(qx)=B(α,β)(x)α1(1x)β1。进一步升华,则可以假设是一个骰子,有六个面,则如同上面所说的混合模型一样,可以得到Direchlet模型, D i r ( X , α ) = ∏ i d x i α − 1 B ( α ) Dir(X,\\mathbf\\alpha)=\\frac\\prod_i^dx_i^\\alpha-1B(\\mathbf\\alpha) Dir(X,α)=B(α)idxiα1,其中B是为了使概率为1的标准概率模型,是分子的积分。

产生Dirichlet过程三种方式

PUS

poly urn模型构造狄利克雷过程,假设我们有一个罐子,(初始时刻从base分布中取出一个球放入罐子中)从里面拿出一个球,如果是黑色,那么我们产生一个新的颜色球,并和原来的球一起放入罐子中,如果不是黑球那么再拿一个和这个球颜色一样的球放入罐子中,如果拿出的是黑球,不再是重新拿一个新的颜色,而是从base分布中随机选取一个颜色放入罐子中, 该过程可以描述为 p ( G ∣ θ 1 ^ , … , θ N ^ ) = D P ( α + N , 1 α + N ( α H + ∑ i = 1 N δ ( θ , θ ^ i ) ) ) p(G|\\hat\\theta_1,\\dots,\\hat\\theta_N)=DP(\\alpha+N,\\frac1\\alpha+N(\\alpha H+\\sum_i=1^N\\delta(\\theta,\\hat\\theta_i))) p(Gθ1^,,θN^)=DP(α+N,α+N1(αH+i=1Nδ(θ,θ^i)))。前面是一个参数,后半部分可以看为先验分布 G 0 G_0 G0

CRP

中国餐馆构造狄利克雷模型,顾客进入餐馆可以按照一定的概率 n k α +

以上是关于狄利克雷语义增强的在线流文本聚类的主要内容,如果未能解决你的问题,请参考以下文章

潜在狄利克雷分配与文档聚类的关系

如何在 Scikit-learn 中使用“狄利克雷过程高斯混合模型”? (n_components?)

Latent Dirichlet Allocation(隐狄利克雷分配模型)——论文翻译与分析

Sklearn 潜在狄利克雷分配如何真正起作用?

如何从 PyMC3 中的狄利克雷过程中提取无监督集群?

NLP-04隐含狄利克雷分布(LDA)