半监督聚类/分类

Posted

技术标签:

【中文标题】半监督聚类/分类【英文标题】:Semi-supervised clustering/classification 【发布时间】:2019-05-09 04:45:44 【问题描述】:

我有来自传感器的数据,我想对这些数据运行集群算法。数据不包含有关集群标签的信息,但我可以手动添加一些标签。

如何使用手动添加的标签来帮助无监督学习?

一个小例子 - 使用带有标签的测量作为 k-means 的初始中心。我可以对这些数据使用什么基于密度的算法?

【问题讨论】:

您的数据大小是多少?你准备手动标注多少个标签? 大小可以是 100k-1m 行。每个标签大约有 7 个标签和 10 个示例 ***.com/questions/21258367/… 半监督学习是一个不错的选择。这个想法是您手动标记一些数据点,然后使用一些分类算法(例如 knn)来获得更多标签,例如。在 knn 的情况下,您可以标记接近手动标签的案例。这样做应该会给您足够的标签,您可以执行聚类分析并标记所有剩余的案例。 【参考方案1】:

您可以使用 init 参数选择哪些样本将成为 k-means 的初始中心(阅读文档 here)。

如果将 ndarray 传递给 init,它的形状应为 (n_clusters, n_features) 并给出初始中心。在这种情况下,将使用数组as explained here 中指定的质心执行单个初始化。

需要这个形状意味着init必须有n_clusters行,并且每行中的元素数量应该与actual_data_points as discussed here的维度相匹配。

【讨论】:

K-means 不是基于密度的算法 你可以使用SSDBSCAN。 producao.usp.br/handle/BDPI/45673

以上是关于半监督聚类/分类的主要内容,如果未能解决你的问题,请参考以下文章

点宽专栏聚类算法神经网络及其在量化选股中的实践

聚类与无监督分类

机器学习算法分类

03 Types of Learning

专栏丨聚类算法神经网络及其在量化选股中的实践

机器学习基石:03 Types of Learning