狄利克雷语义增强的在线流文本聚类

Posted 2022-11-18 霏微袭雨

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了狄利克雷语义增强的在线流文本聚类相关的知识，希望对你有一定的参考价值。

狄利克雷语义增强的在线流文本聚类

本文参考： “An Online Semantic-enhanced Dirichlet Model for Short Text Stream Clustering”
论文连接：https://www.aclweb.org/anthology/2020.acl-main.70.pdf
GitHub：https://github.com/JayKumarr/OSDM

dirichlet过程先验知识

目标描述

$S_t=\\d_t\\^\\infty_t=1$ 表示 $d_t$ 表示t时刻到达的document，而每一个 $d_t表示\\w_1,w_2,\\dots,w_n\\$ ,表示有n个word，而且每个document所包含的word的数量是不一样的。聚类任务的关键就是将相似的文章聚成几个类族，用公式来表示即为 $Z=\\z_t\\^\\infty_t=1$ ,其中 $z_t$ 表示一个类别，即 $z_t=\\d_1^z_t,d_2^z_t,\\dots,d_n^z_t\\$ ,有n篇文章属于 $z_t$ 类别,注意每篇文章的类别只能是一个，故 $z_i和z_j$ 之间没有交集。

先验知识Dirichlet过程

混合模型基础

如果用高斯混合模型举例来说，单个高斯模型，可以表示为 $P(x|\\theta)=\\frac1\\sqrt2\\pi\\sigma^2exp(-\\frac(x-\\mu)^22\\sigma^2)$ ,如果x为高维数据，则是 $P(x|\\theta)=\\frac12\\pi\\sigma^D/2|\\Sigma^1/2|exp(-\\frac(x-\\mu)^T\\Sigma^-1(x-\\mu)2)$ ,而高斯混合模型可以描述为 $P(x|\\theta)=\\sum_k=1^K\\alpha_k\\phi(x|\\theta_k)$ ，表示有k个单个高斯模型，用来描述多个属性， $\\alpha_k$ 表示观测数据集属于k个子模型的概率。

Dirichlet过程模型

Dirichlet分布是Beta分布在高维情形的推广，就是一个混合模型.现在介绍一下beta分布，在贝叶斯框架常作为概率的概率分布。举个例子如抛硬币，如果用贝叶斯分布求其后验分布p过程中，即 $P (q ∣ x) P (x) = P (q) P (x ∣ q)$ （求正面的概率，通过很少次数抛硬币实验次数是很难得出p=1/2这个结论),在这个例子中假如x为硬币的正面，我们可以假设先验概率p(q)为零到一的均匀分布，同时可以确定 $P (x ∣ q)$ 的分布，模拟n次抛硬币，P(x)无关可以舍弃，将等式右边式子整合既可以得到beta分布，最后为 $P(q|x)=\\frac(x)^\\alpha-1(1-x)^\\beta-1B(\\alpha,\\beta)$ 。进一步升华，则可以假设是一个骰子，有六个面，则如同上面所说的混合模型一样，可以得到Direchlet模型， $Dir(X,\\mathbf\\alpha)=\\frac\\prod_i^dx_i^\\alpha-1B(\\mathbf\\alpha)$ ，其中B是为了使概率为1的标准概率模型，是分子的积分。

产生Dirichlet过程三种方式

PUS

poly urn模型构造狄利克雷过程，假设我们有一个罐子，（初始时刻从base分布中取出一个球放入罐子中）从里面拿出一个球，如果是黑色，那么我们产生一个新的颜色球，并和原来的球一起放入罐子中，如果不是黑球那么再拿一个和这个球颜色一样的球放入罐子中，如果拿出的是黑球，不再是重新拿一个新的颜色，而是从base分布中随机选取一个颜色放入罐子中，该过程可以描述为 $p(G|\\hat\\theta_1,\\dots,\\hat\\theta_N)=DP(\\alpha+N,\\frac1\\alpha+N(\\alpha H+\\sum_i=1^N\\delta(\\theta,\\hat\\theta_i)))$ 。前面是一个参数，后半部分可以看为先验分布 $G_0$ 。

CRP

中国餐馆构造狄利克雷模型，顾客进入餐馆可以按照一定的概率

以上是关于狄利克雷语义增强的在线流文本聚类的主要内容，如果未能解决你的问题，请参考以下文章