高斯簇是线性可分的吗？

Posted 2023-03-12

技术标签:

【中文标题】高斯簇是线性可分的吗？【英文标题】：Are Gaussian clusters linearly separable? 【发布时间】：2016-12-31 00:56:33 【问题描述】：

假设您有两个二维高斯概率分布，第一个以 (0,1) 为中心，第二个以 (0,-1) 为中心。（为简单起见，假设它们具有相同的方差。）可以认为从这两个高斯采样的数据点簇是线性可分的吗？

直观地说，很明显，分隔两个分布的边界是线性的，在我们的例子中就是横坐标。然而，线性可分性的正式要求是簇的凸包不重叠。高斯生成的集群并非如此，因为它们的潜在概率分布遍及所有 R^2（尽管远离均值的概率可以忽略不计）。

那么，高斯生成的簇是线性可分的吗？怎样才能调和凸包的要求与直线是唯一可以想象的“边界”这一事实？或者，也许一旦图片中出现不等方差，边界实际上就不再是线性的了？

【问题讨论】：

【参考方案1】：

高斯集群实例可能是可分离的或不可分离的。这取决于结果，而不是产生结果的过程。

线性可分性can be defined a作为平面的存在将两组点分开，使得一组点完全在平面的一侧，而另一组点完全在平面的另一侧飞机。

现在采用您的特定高斯分布。可能他们生成了两个线性可分的集合（在横坐标处或不在横坐标处）。但是，对于概率 1，如果方差不为零，并且您让过程生成足够多的点，则结果将不是线性可分的。

所以，这又是一个结果的问题，而不是过程的问题。

【讨论】：

有道理，谢谢！作为后续问题，假设特定结果确实具有不重叠的凸包。集群之间的边界是否仅取决于船体的轮廓，还是船体内部点的分布和密度也起作用？不，您需要的只是凸包，而不是其中的内部结构。【参考方案2】：

根据定义，高斯簇是无限的。它们实际上无处不在，只是密度不同。

因此，它们不能分离，无论是否是线性的。 “可分离性”的概念在这里不起作用。

【讨论】：

可能值得补充的是，在某些假设下（两个高斯的协方差矩阵相同），贝叶斯最优分类器是线性的（即使它不能完美分离，它只是为此类数据做了最好的工作)。是的，如果协方差相同，则最大似然决策边界是线性的。我知道高斯分布遍及所有空间。然而，只有当它包含有限数量的点时才有意义。因此，上面 Ami Tavory 提供的答案是有道理的：如果高斯生成的集群的两个特定实例恰好形成凸包，它们确实可以线性分离。在高斯混合模型中，每个点都属于每个簇，只是概率密度不同。您有一个集群“最有可能”生成该点，但这并不能保证。

以上是关于高斯簇是线性可分的吗？的主要内容，如果未能解决你的问题，请参考以下文章