潜类别模型（Latent Class Modeling）

Posted 2020-10-01 夕月一弯

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了潜类别模型（Latent Class Modeling）相关的知识，希望对你有一定的参考价值。

1.潜类别模型概述

潜在类别模型(Latent Class Model, LCM; Lazarsfeld & Henry, 1968)或潜在类别分析(Latent Class Analysis, LCA)是通过间断的潜变量即潜在类别(Class)变量来解释外显指标间的关联，使外显指标间的关联通过潜在类别变量来估计，进而维持其局部独立性的统计方法（见图1-1）。其基本假设是，外显变量各种反应的概率分布可以由少数互斥的潜在类别变量来解释，每种类别对各外显变量的反应选择都有特定的倾向(邱皓政，2008; Collins, & Lanza, 2010)。与潜在类别分析非常相似的是潜在剖面分析(Latent Profile Analysis, LPA)，区别在于前者处理分类变量，后者分析连续变量。

图1-1 LCM示意图

LCM是根据个体在外显指标上的反应模式即不同的联合概率来进行参数估计的统计方法。例如，一份数学测验有10个判断题，数学能力高的个体可能全部正确的回答所有题目，能力低的学生只能正确回答容易的题目，能力中等的学生可能回答全部容易和部分困难的题目。不同能力水平的学生在正确回答不同难易水平的题目时表现出某种相似性，因此通过学生回答题目的情况可以将其分为不同的能力水平组。LCM分析逻辑的就是根据个体在外显项目上的反应模式将其分类。

1.1数学表达式

（1）潜类别分析模型

可以从方差分析的角度理解LCM。方差分析的特点是将方差分解成不同的来源，常见的有组间vs.组内和被试间vs.被试内。在LCM中，可以将方差分解为类别内和类别间(Sterba, 2013)。

根据局部独立性(local independence)假设，类别内的任意两个观测指标间的关联已通过潜类别变量解释，所以它们之间已没有关联。根据独立事件联合发生的概率等于单独发生概率之积的原理，在每个类别内部，多个两点计分项目的联合概率可以表示为：

上式中，表示个体i在指标j的两个选项y=1或y=0的得分。下标j表示2点计分的指标，c为潜类别变量，有k个水平。

同时考虑多个类别水平时，上式扩展为：

表示某一类别组k所占总体的比率，亦称潜类别概率。

（2）潜剖面分析模型

当观测指标为连续型变量时，LCM称作潜在剖面分析(Latent Profile Modeling, LPM)。此时，将连续指标的方差分解为类别/剖面间和类别/剖面内方差(Lazarsfeld & Henry, 1968)：

其中和为剖面k内指标i的均值和方差。为类别概率，即每个类别个体占全体的比例。当满足局部独立性和同质假设时，上式简化为：

1.2 类别概率和条件概率

在LCM中，有两个非常重要的参数：潜类别概率和条件概率(Conditional Probability)。潜在类别概率类似与FA中的解释方差比例。在FA中，解释方差比例说明每个因子在解释数据时所占的分量。LCM的潜在类别概率类则用于将样本分成不同比例的类别。换句话说，潜在类别概率就是用于说明各个类别的人数比例。例如，根据1000个被试在4个观测指标上的得分情况将其分成3个潜在类别，潜在类别概率为70%，25%和5%，表示第1类有700个被试占70%，第2类有250个被试占25%，第3类有50个被试占5%。

条件概率指潜类别组内的个体在外显指标上的作答概率。例如，类别潜变量C有3个类别C1，C2和C3，外显指标A有3个选项，C1的条件概率就是计算C1内的个体在A的三个选项上的选择比例。依次类推，C2和C3也可以计算各自在A上的条件概率，共9个（每个类别有三个）。由于T1内的个体必然在A的三个不同选项的某个特定选项上选择，所以类别内的条件概率总和等于1，公式如下。

表1-2中呈现了下文探索性LCA分析时4个类别在前5个指标选项1上的条件概率和潜类别概率。

表1-2条件概率和类别概率

潜类别		条件概率				潜类别概率
潜类别	T1	T2	T3	T4	T5	潜类别概率
C1	.390	.435	.276	.184	.182	.2054
C2	.903	.963	.951	.872	.943	.2946
C3	.493	.710	.468	.339	.538	.3357
C4	.739	.790	.883	.551	.883	.1643

注：T1-T5为五个项目；由于每个项目只有两个选项所以表中只呈现了在一个选项上的条件概率，在第二个选项上的条件概率为1减表中数值。

条件概率与因子负荷类似，表达潜变量与外显变量之间关系的强弱。各潜在类别的概率总和以及每个外显变量的条件概率总和都为1，这是LCA模型的基本限制条件；也可以根据特定研究的相关理论对参数进行限定。

一旦最优的LCA模型拟合成功，就需要将每个个体归入不同的潜在类别。换句话说，就是确定每个个体的潜类别属性(Class Membership)。在LCA中，采用的分类依据是贝叶斯后验概率(Posterior Probability)，公式如下。

后验类别概率是根据个体的作答类型，在LCA拟合后估计得来，其值表示个体属于某一类别的概率。根据个体后验概率的最大值将其归入特定类别。例如，某个体X在四个类别上的后验概率分别为.80, .10, .05和.05。根据此值，X在第一类别中的概率值最高，所以应该将归入第一类。在Mplus中，后验概率和个体分类如下命令获得：

表1 LCM分类概率的Mplus语句

SAVEDATA: FILE=ptsd-lca-4.txt;（保存文件名）。

SAVE=cprob;（要求报告后验概率）。

以上是关于潜类别模型（Latent Class Modeling）的主要内容，如果未能解决你的问题，请参考以下文章

Latent Semantic Analysis（LSA）

论文笔记---ClusterGAN: Latent Space Clustering in Generative Adversarial Networks

潜在狄利克雷分配(LDA，Latent Dirichlet Allocation)模型

Latent Dirichlet Allocation 文本分类主题模型