make_blobs

Posted always-fight

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了make_blobs相关的知识,希望对你有一定的参考价值。

一、make_blobs简介

 scikit中的make_blobs方法常被用来生成聚类算法的测试数据,直观地说,make_blobs会根据用户指定的特征数量、中心点数量、范围等来生成几类数据,这些数据可用于测试聚类算法的效果。

二、函数原型

sklearn.datasets.make_blobs(n_samples=100, n_features=2, centers=3, cluster_std=1.0, center_box=(-10.0, 10.0), shuffle=True, random_state=None)

 其中

  n_samples是待生成的样本的总数。

  n_features是每个样本的特征数,即维度

  centers表示类别数。

  cluster_std表示每个类别的方差,例如我们希望生成2类数据,其中一类比另一类具有更大的方差,可以将cluster_std设置为[1.0,3.0]。

三、实例

from sklearn.datasets import make_blobs
X, y = make_blobs(n_samples=150, n_features=2, centers=3, cluster_std=0.5, shuffle=True, random_state=0)

import matplotlib.pyplot as plt
plt.scatter(X[:, 0], X[:, 1], c=‘red‘, marker=‘o‘, s=50)
plt.grid()
plt.show()

 其中plt.scatter()中的s参数表示marker的大小

技术分享图片

 

 

 

以上是关于make_blobs的主要内容,如果未能解决你的问题,请参考以下文章

sklearn 的 make_blob 和多元高斯有啥区别?

sklearn 中 make_blobs模块使用

sklearn 中 make_blobs模块

“n_features”和“center”参数在SciKit中的make_blobs中意味着什么?

sklearn 笔记:make_blobs 生成聚类数据

使用 python 和 scikit-learn 的 DBSCAN:make_blobs 返回的整数标签到底是啥?