高斯簇是线性可分的吗?

Posted

技术标签:

【中文标题】高斯簇是线性可分的吗?【英文标题】:Are Gaussian clusters linearly separable? 【发布时间】:2016-12-31 00:56:33 【问题描述】:

假设您有两个二维高斯概率分布,第一个以 (0,1) 为中心,第二个以 (0,-1) 为中心。 (为简单起见,假设它们具有相同的方差。)可以认为从这两个高斯采样的数据点簇是线性可分的吗?

直观地说,很明显,分隔两个分布的边界是线性的,在我们的例子中就是横坐标。然而,线性可分性的正式要求是簇的凸包不重叠。高斯生成的集群并非如此,因为它们的潜在概率分布遍及所有 R^2(尽管远离均值的概率可以忽略不计)。

那么,高斯生成的簇是线性可分的吗?怎样才能调和凸包的要求与直线是唯一可以想象的“边界”这一事实?或者,也许一旦图片中出现不等方差,边界实际上就不再是线性的了?

【问题讨论】:

【参考方案1】:

高斯集群实例可能是可分离的或不可分离的。这取决于结果,而不是产生结果的过程。

线性可分性can be defined a作为平面的存在将两组点分开,使得一组点完全在平面的一侧,而另一组点完全在平面的另一侧飞机。

现在采用您的特定高斯分布。 可能他们生成了两个线性可分的集合(在横坐标处或不在横坐标处)。但是,对于概率 1,如果方差不为零,并且您让过程生成足够多的点,则结果将不是线性可分的。

所以,这又是一个结果的问题,而不是过程的问题。

【讨论】:

有道理,谢谢!作为后续问题,假设特定结果确实具有不重叠的凸包。集群之间的边界是否仅取决于船体的轮廓,还是船体内部点的分布和密度也起作用? 不,您需要的只是凸包,而不是其中的内部结构。【参考方案2】:

根据定义,高斯簇是无限的。它们实际上无处不在,只是密度不同。

因此,它们不能分离,无论是否是线性的。 “可分离性”的概念在这里不起作用。

【讨论】:

可能值得补充的是,在某些假设下(两个高斯的协方差矩阵相同),贝叶斯最优分类器是线性的(即使它不能完美分离,它只是为此类数据做了最好的工作)。 是的,如果协方差相同,则最大似然决策边界是线性的。 我知道高斯分布遍及所有空间。然而,只有当它包含有限数量的点时才有意义。因此,上面 Ami Tavory 提供的答案是有道理的:如果高斯生成的集群的两个特定 实例恰好形成凸包,它们确实可以线性分离。 在高斯混合模型中,每个点都属于每个簇,只是概率密度不同。您有一个集群“最有可能”生成该点,但这并不能保证。

以上是关于高斯簇是线性可分的吗?的主要内容,如果未能解决你的问题,请参考以下文章

支持向量机常见问题

核函数

线性可分 与线性不可分

如何理解在二维空间内线性不可分的数据,可以在五维空间内线性可分

神经网络:“线性可分”是啥意思?

找到该数据变为线性可分的最简单的多项式内核[关闭]