聚类的重要性是啥?
Posted
技术标签:
【中文标题】聚类的重要性是啥?【英文标题】:What is the importance of clustering?聚类的重要性是什么? 【发布时间】:2016-09-21 04:25:48 【问题描述】:在无监督学习期间,我们会进行聚类分析(如 K-Means),以将数据分类到多个聚类中。 但是这些集群数据在实际场景中有什么用呢。
我认为在聚类过程中我们会丢失有关数据的信息。 是否有一些聚类可能有益的实际示例?
【问题讨论】:
【参考方案1】:信息丢失可能是故意的。以下是三个例子:
PCM 信号量化(Lloyd 的 k-means 出版物)。您知道传输一定数量(比如 10 个)不同的信号,但会出现失真。量化消除了失真并重新提取了原始的 10 个不同的信号。 在这里,您会丢失错误并保留信号。 颜色量化(参见***)。为了减少图像中的颜色数量,一种非常好的方法是使用 k-means(通常在 HSV 或 Lab 空间中)。 k 是所需输出颜色的数量。 这里的信息丢失是故意的,以便更好地压缩图像。 k-means 试图找到仅具有 k 种颜色的图像的最小二乘误差近似值。 在时间序列中搜索主题时,您还可以使用 k-means 等量化将数据转换为符号表示。在深度学习之前作为图像识别技术的最先进的视觉词袋方法也使用了这种方法。 探索性数据挖掘(聚类 - 有人可能会争辩说,上述用例不是数据挖掘/聚类;而是量化)。如果您有一个包含一百万个点的数据集,您要调查哪些点?聚类方法尝试将数据拆分成组,这些组应该在内部更加同质,并且彼此之间更加不同。您不必查看每个对象,而只需查看每个集群的一些,以希望了解有关整个集群(以及您的整个数据集)的一些信息。诸如 k-means 之类的质心方法甚至可以为每个集群提供一个“原型”,尽管在集群内的其他点上也可以找到一个好主意。您可能还想进行异常值检测并查看一些 unusual 对象。这种情况介于对代表性对象进行采样和减小数据集大小以变得更易于管理之间。与以上几点的主要区别在于,结果通常不会自动“操作化”,而是因为探索性聚类结果太不可靠(因此需要多次迭代)需要手动分析。【讨论】:
以上是关于聚类的重要性是啥?的主要内容,如果未能解决你的问题,请参考以下文章