如何自动化集群数量？ [复制]

Posted 2023-03-12

技术标签:

【中文标题】如何自动化集群数量？ [复制]【英文标题】：How do I automate the number of clusters? [duplicate] 【发布时间】：2019-07-23 00:10:50 【问题描述】：

编辑：我接受我的问题因相似而被关闭，但我认为答案为其他人提供了宝贵的知识，因此应该开放。

我一直在玩下面的脚本：

from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.cluster import KMeans
from sklearn.metrics import adjusted_rand_score
import textract
import os

folder_to_scan = '/media/sf_Documents/clustering'
dict_of_docs = 

# Gets all the files to scan with textract
for root, sub, files in os.walk(folder_to_scan):
    for file in files:
        full_path = os.path.join(root, file)
        print(f'Processing file')
        try:
            text = textract.process(full_path)
            dict_of_docs[file] = text
        except Exception as e:
            print(e)


vectorizer = TfidfVectorizer(stop_words='english')
X = vectorizer.fit_transform(dict_of_docs.values())

true_k = 3
model = KMeans(n_clusters=true_k, init='k-means++', max_iter=100, n_init=1)
model.fit(X)

print("Top terms per cluster:")
order_centroids = model.cluster_centers_.argsort()[:, ::-1]
terms = vectorizer.get_feature_names()
for i in range(true_k):
    print("Cluster %d:" % i,)
    for ind in order_centroids[i, :10]:
        print(' %s' % terms[ind],)

它会扫描一个包含已扫描文档的图像文件夹，提取文本然后对文本进行聚类。我知道有 3 种不同类型的文档，所以我将 true_k 设置为 3。但是如果我有一个未知文档文件夹，其中可能有 1 到 100 种不同类型的文档。

【问题讨论】：

【参考方案1】：

这是一个棘手的领域，因为在没有任何基本事实标签的情况下，很难衡量您的聚类算法的“好坏”程度。为了进行自动选择，您需要有一个指标来比较 KMeans 在不同 n_clusters 值下的表现。

一个流行的选择是轮廓分数。你可以找到更多关于它的细节here。这是scikit-learn 文档：

使用每个样本的平均聚类内距离 (a) 和平均最近聚类距离 (b) 计算轮廓系数。样本的轮廓系数为 (b - a) / max(a, b)。为了澄清，b 是样本与样本不属于的最近聚类之间的距离。请注意，仅当标签数量为 2

因此，您只能计算 n_clusters >= 2 的轮廓分数（不幸的是，鉴于您的问题描述，这可能是您的限制）。

这就是您在虚拟数据集上使用它的方式（然后您可以将其调整为您的代码，这只是为了有一个可重现的示例）：

from sklearn.datasets import load_iris
from sklearn.cluster import KMeans
from sklearn.metrics import silhouette_score

iris = load_iris()
X = iris.data

sil_score_max = -1 #this is the minimum possible score

for n_clusters in range(2,10):
  model = KMeans(n_clusters = n_clusters, init='k-means++', max_iter=100, n_init=1)
  labels = model.fit_predict(X)
  sil_score = silhouette_score(X, labels)
  print("The average silhouette score for %i clusters is %0.2f" %(n_clusters,sil_score))
  if sil_score > sil_score_max:
    sil_score_max = sil_score
    best_n_clusters = n_clusters

这将返回：

The average silhouette score for 2 clusters is 0.68
The average silhouette score for 3 clusters is 0.55
The average silhouette score for 4 clusters is 0.50
The average silhouette score for 5 clusters is 0.49
The average silhouette score for 6 clusters is 0.36
The average silhouette score for 7 clusters is 0.46
The average silhouette score for 8 clusters is 0.34
The average silhouette score for 9 clusters is 0.31

因此您将拥有best_n_clusters = 2（注意：实际上，Iris 有三个类...）

【讨论】：

以上是关于如何自动化集群数量？ [复制]的主要内容，如果未能解决你的问题，请参考以下文章