使用 HDBSCAN 聚类时获取聚类中心 [重复]

Posted

技术标签:

【中文标题】使用 HDBSCAN 聚类时获取聚类中心 [重复]【英文标题】:Get Cluster Centers when using HDBSCAN Clustering [duplicate] 【发布时间】:2017-10-10 04:18:00 【问题描述】:

对聚类和尝试 HDBSCAN 聚类非常陌生,但我很难弄清楚如何获得聚类中心。使用 KMeans,它与集群一起设置。

如何获取集群中心?

这是我的代码:

#!/usr/bin/env python3

from sklearn.cluster import KMeans
from sklearn import metrics
import cv2
import numpy as np
import hdbscan
from pprint import pprint


# Read image into opencv
image = cv2.imread('4.jpg')

# Set color space
image = cv2.cvtColor(image, cv2.COLOR_BGR2RGB)

# reshape the image to be a list of pixels
pixels = image.reshape((image.shape[0] * image.shape[1], 3))

# Build the clusterer
cluster = hdbscan.RobustSingleLinkage(cut=0.125, k=7)
cluster.fit(pixels)


>>> pprint(vars(cluster))
'_cluster_hierarchy_': <hdbscan.plots.SingleLinkageTree object at 0x110deda58>,
 '_metric_kwargs': ,
 'algorithm': 'best',
 'alpha': 1.4142135623730951,
 'core_dist_n_jobs': 4,
 'cut': 0.125,
 'gamma': 5,
 'k': 7,
 'labels_': array([  0,   0,   0, ..., 360, 220, 172]),
 'metric': 'euclidean'

这就是 KMeans 输出给你的:

'cluster_centers': (array([ 64.93473757,  65.65262431,  72.00103591]),
                     array([  77.55381605,   85.80626223,  102.29549902]),
                     array([ 105.66884532,  115.81917211,  131.55555556]),
                     array([ 189.20149254,  197.00497512,  205.43034826]),
                     array([ 148.0922619 ,  156.5       ,  168.33333333])),
 'cluster_centers_': array([[ 105.66884532,  115.81917211,  131.55555556],
       [  64.93473757,   65.65262431,   72.00103591],
       [ 148.0922619 ,  156.5       ,  168.33333333],
       [ 189.20149254,  197.00497512,  205.43034826],
       [  77.55381605,   85.80626223,  102.29549902]]),
 'copy_x': True,
 'inertia_': 1023155.888923295,
 'init': 'k-means++',
 'labels_': array([1, 1, 1, ..., 1, 1, 1], dtype=int32),
 'max_iter': 300,
 'n_clusters': 5,
 'n_init': 10,
 'n_iter_': 8,
 'n_jobs': 1,
 'precompute_distances': 'auto',
 'random_state': None,
 'tol': 0.0001,
 'verbose': 0

【问题讨论】:

【参考方案1】:

(H)DBSCAN 中的集群没有中心。

集群可能是非凸的,如果您计算所有点的平均值(并且您的数据是点 - 它们不需要),那么它可能在集群外部 .

另请注意,DBSCAN 也会给出完全没有中心的噪声点。

【讨论】:

感谢您的回答并将其标记为重复。另一个问题的措辞不同,所以它没有出现在我的搜索中。我需要改写我的问题和代码以缩小问题 + 原始问题的范围。

以上是关于使用 HDBSCAN 聚类时获取聚类中心 [重复]的主要内容,如果未能解决你的问题,请参考以下文章

解释 HDBSCAN 聚类的行为

标记聚类时“marker.getPosition 不是函数”[重复]

使用 k-means 聚类时如何确定 k?

使用 k-means 聚类时如何确定 k?

使用 k-means 聚类时如何确定 k?

使用 k-means 聚类时如何确定 k?