高斯簇是线性可分的吗?
Posted
技术标签:
【中文标题】高斯簇是线性可分的吗?【英文标题】:Are Gaussian clusters linearly separable? 【发布时间】:2016-12-31 00:56:33 【问题描述】:假设您有两个二维高斯概率分布,第一个以 (0,1) 为中心,第二个以 (0,-1) 为中心。 (为简单起见,假设它们具有相同的方差。)可以认为从这两个高斯采样的数据点簇是线性可分的吗?
直观地说,很明显,分隔两个分布的边界是线性的,在我们的例子中就是横坐标。然而,线性可分性的正式要求是簇的凸包不重叠。高斯生成的集群并非如此,因为它们的潜在概率分布遍及所有 R^2(尽管远离均值的概率可以忽略不计)。
那么,高斯生成的簇是线性可分的吗?怎样才能调和凸包的要求与直线是唯一可以想象的“边界”这一事实?或者,也许一旦图片中出现不等方差,边界实际上就不再是线性的了?
【问题讨论】:
【参考方案1】:高斯集群实例可能是可分离的或不可分离的。这取决于结果,而不是产生结果的过程。
线性可分性can be defined a作为平面的存在将两组点分开,使得一组点完全在平面的一侧,而另一组点完全在平面的另一侧飞机。
现在采用您的特定高斯分布。 可能他们生成了两个线性可分的集合(在横坐标处或不在横坐标处)。但是,对于概率 1,如果方差不为零,并且您让过程生成足够多的点,则结果将不是线性可分的。
所以,这又是一个结果的问题,而不是过程的问题。
【讨论】:
有道理,谢谢!作为后续问题,假设特定结果确实具有不重叠的凸包。集群之间的边界是否仅取决于船体的轮廓,还是船体内部点的分布和密度也起作用? 不,您需要的只是凸包,而不是其中的内部结构。【参考方案2】:根据定义,高斯簇是无限的。它们实际上无处不在,只是密度不同。
因此,它们不能分离,无论是否是线性的。 “可分离性”的概念在这里不起作用。
【讨论】:
可能值得补充的是,在某些假设下(两个高斯的协方差矩阵相同),贝叶斯最优分类器是线性的(即使它不能完美分离,它只是为此类数据做了最好的工作)。 是的,如果协方差相同,则最大似然决策边界是线性的。 我知道高斯分布遍及所有空间。然而,只有当它包含有限数量的点时才有意义。因此,上面 Ami Tavory 提供的答案是有道理的:如果高斯生成的集群的两个特定 实例恰好形成凸包,它们确实可以线性分离。 在高斯混合模型中,每个点都属于每个簇,只是概率密度不同。您有一个集群“最有可能”生成该点,但这并不能保证。以上是关于高斯簇是线性可分的吗?的主要内容,如果未能解决你的问题,请参考以下文章