如何运用聚类分析法？

Posted 2023-04-26

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了如何运用聚类分析法？相关的知识，希望对你有一定的参考价值。

下表给出对该产品8种需求情况，根据该表，请运用聚类分析法，找出哪些地区在该产品需求上有共同特征。
x1 x2 x3 x4 x5 x6 x7 x8
辽宁 7.9 39.77 8.49 12.94 19.27 11.05 2.04 13.29
浙江 7.68 50.37 11.35 13.3 19.25 14.59 2.75 14.87
河南 9.42 27.93 8.2 8.14 16.17 9.42 1.55 9.76
甘肃 9.16 27.98 9.01 9.32 15.99 9.1 1.82 11.35
青海 10.06 28.64 10.52 10.05 16.18 8.39 1.96 10.82

聚类分析法是理想的多变量统计技术，主要有分层聚类法和迭代聚类法。聚类通过把目标数据放入少数相对同源的组或“类”（cluster）里。分析表达数据，（1）通过一系列的检测将待测的一组基因的变异标准化，然后成对比较线性协方差。（2）通过把用最紧密关联的谱来放基因进行样本聚类，例如用简单的层级聚类（hierarchical clustering）方法。这种聚类亦可扩展到每个实验样本，利用一组基因总的线性相关进行聚类。（3）多维等级分析（multidimensional scaling analysis,MDS）是一种在二维Euclidean “距离”中显示实验样本相关的大约程度。（4）K-means方法聚类，通过重复再分配类成员来使“类”内分散度最小化的方法。

聚类方法有两个显著的局限：首先，要聚类结果要明确就需分离度很好（well-separated）的数据。几乎所有现存的算法都是从互相区别的不重叠的类数据中产生同样的聚类。但是，如果类是扩散且互相渗透，那么每种算法的的结果将有点不同。结果，每种算法界定的边界不清，每种聚类算法得到各自的最适结果，每个数据部分将产生单一的信息。为解释因不同算法使同样数据产生不同结果，必须注意判断不同的方式。对遗传学家来说，正确解释来自任一算法的聚类内容的实际结果是困难的（特别是边界）。最终，将需要经验可信度通过序列比较来指导聚类解释。

第二个局限由线性相关产生。上述的所有聚类方法分析的仅是简单的一对一的关系。因为只是成对的线性比较，大大减少发现表达类型关系的计算量，但忽视了生物系统多因素和非线性的特点。

从统计学的观点看，聚类分析是通过数据建模简化数据的一种方法。传统的统计聚类分析方法包括系统聚类法、分解法、加入法、动态聚类法、有序样品聚类、有重叠聚类和模糊聚类等。采用k-均值、k-中心点等算法的聚类分析工具已被加入到许多著名的统计分析软件包中，如SPSS、SAS等。
从机器学习的角度讲，簇相当于隐藏模式。聚类是搜索簇的无监督学习过程。与分类不同，无监督学习不依赖预先定义的类或带类标记的训练实例，需要由聚类学习算法自动确定标记，而分类学习的实例或数据对象有类别标记。聚类是观察式学习，而不是示例式的学习。
从实际应用的角度看，聚类分析是数据挖掘的主要任务之一。就数据挖掘功能而言，聚类能够作为一个独立的工具获得数据的分布状况，观察每一簇数据的特征，集中对特定的聚簇集合作进一步地分析。
聚类分析还可以作为其他数据挖掘任务（如分类、关联规则）的预处理步骤。
数据挖掘领域主要研究面向大型数据库、数据仓库的高效实用的聚类分析算法。

聚类分析是数据挖掘中的一个很活跃的研究领域，并提出了许多聚类算法。
这些算法可以被分为划分方法、层次方法、基于密度方法、基于网格方法和
基于模型方法。
1 划分方法(PAM:PArtitioning method) 首先创建k个划分，k为要创建的划分个数；然后利用一个循环
定位技术通过将对象从一个划分移到另一个划分来帮助改善划分质量。典型的划分方法包括：
k-means,k-medoids,CLARA(Clustering LARge Application),
CLARANS(Clustering Large Application based upon RANdomized Search).
FCM
2 层次方法(hierarchical method) 创建一个层次以分解给定的数据集。该方法可以分为自上
而下（分解）和自下而上（合并）两种操作方式。为弥补分解与合并的不足，层次合
并经常要与其它聚类方法相结合，如循环定位。典型的这类方法包括：
第一个是;BIRCH(Balanced Iterative Reducing and Clustering using Hierarchies) 方法，它首先利用树的结构对对象集进行划分；然后再利
用其它聚类方法对这些聚类进行优化。
第二个是CURE(Clustering Using REprisentatives) 方法，它利用固定数目代表对象来表示相应聚类；然后对各聚类按照指定
量（向聚类中心）进行收缩。
第三个是ROCK方法，它利用聚类间的连接进行聚类合并。
最后一个CHEMALOEN，它则是在层次聚类时构造动态模型。
3 基于密度方法，根据密度完成对象的聚类。它根据对象周围的密度（如
DBSCAN）不断增长聚类。典型的基于密度方法包括：
DBSCAN(Densit-based Spatial Clustering of Application with Noise):该算法通过不断生长足够高密
度区域来进行聚类；它能从含有噪声的空间数据库中发现任意形状的聚类。此方法将一个聚类定义
为一组“密度连接”的点集。
OPTICS(Ordering Points To Identify the Clustering Structure):并不明确产生一
个聚类，而是为自动交互的聚类分析计算出一个增强聚类顺序。。
4 基于网格方法，首先将对象空间划分为有限个单元以构成网格结构；然后利
用网格结构完成聚类。
STING(STatistical INformation Grid) 就是一个利用网格单元保存的统计信息进行基
于网格聚类的方法。
CLIQUE(Clustering In QUEst)和Wave-Cluster 则是一个将基于网格与基于密度相结合的方
法。
5 基于模型方法，它假设每个聚类的模型并发现适合相应模型的数据。典型的
基于模型方法包括：
统计方法COBWEB:是一个常用的且简单的增量式概念聚类方法。它的输入对象是采
用符号量（属性-值）对来加以描述的。采用分类树的形式来创建
一个层次聚类。
CLASSIT是COBWEB的另一个版本.。它可以对连续取值属性进行增量式聚
类。它为每个结点中的每个属性保存相应的连续正态分布（均值与方差）；并利
用一个改进的分类能力描述方法，即不象COBWEB那样计算离散属性（取值）
和而是对连续属性求积分。但是CLASSIT方法也存在与COBWEB类似的问题。
因此它们都不适合对大数据库进行聚类处理. 参考技术A 　　运用聚类分析法主要做好分析表达数据：
　　1、通过一系列的检测将待测的一组基因的变异标准化，然后成对比较线性协方差。
　　2、通过把用最紧密关联的谱来放基因进行样本聚类，例如用简单的层级聚类（hierarchical clustering）方法。这种聚类亦可扩展到每个实验样本，利用一组基因总的线性相关进行聚类。
　　3、多维等级分析（multidimensional scaling analysis,MDS）是一种在二维Euclidean “距离”中显示实验样本相关的大约程度。
　　4、K-means方法聚类，通过重复再分配类成员来使“类”内分散度最小化的方法。
　　聚类分析法是理想的多变量统计技术，主要有分层聚类法和迭代聚类法。聚类通过把目标数据放入少数相对同源的组或“类”（cluster）里。
‍

数据分析基于FCM进行交通数据聚类分析matlab源码

事物间的界线，有些是明确的，有些则是模糊的。当聚类涉及到事物之间的模糊界线时，需要运用模糊聚类分析方法。
如何理解模糊聚类的“模糊”呢：假设有两个集合分别是A、B，有一成员a，传统的分类概念a要么属于A要么属于B，在模糊聚类的概念中a可以0.3属于A，0.7属于B，这就是其中的“模糊”概念。

模糊聚类分析有两种基本方法：系统聚类法和逐步聚类法。

系统聚类法个人理解类似于密度聚类算法，逐步聚类法类是中心点聚类法。（这里有不对的地方请指正）

逐步聚类法是一种基于模糊划分的模糊聚类分析法。它是预先确定好待分类的样本应分成几类，然后按照最优原则进行在分类，经多次迭代直到分类比较合理为止。在分类过程中可认为某个样本以某一隶属度隶属某一类，又以某一隶属度隶属于另一类。这样，样本就不是明确的属于或不属于某一类。若样本集有n个样本要分成c类，则他的模糊划分矩阵为c×n。
该矩阵有如下特性：
①. 每一样本属于各类的隶属度之和为1。
②. 每一类模糊子集都不是空集。

模糊C-means聚类算法

模糊c-均值聚类算法fuzzy c-means (FCM)。在众多模糊聚类算法中，模糊C-均值(FCM)算法应用最广泛且成功，它通过优化目标函数得到每个样本点对所有类中心的隶属度，从而对样本进行自动分类。

FCM算法原理

假定我们有数据集X，我们要对X中的数据进行分类，如果把这些数据划分成c个类的话，那么对应的就有c个类中心为Ci，每个样本Xj属于某一类Ci的隶属度定为Uij，那么定义一个FCM目标函数及其约束条件如下：

在这里插入图片描述

目标函数(式1)由相应样本的隶属度与该样本到各类中心的距离相乘组成的，式2为约束条件，也就是一个样本属于所有类的隶属度之和要为 1 。
式1中的m是一个隶属度的因子，一般为2 ，||Xj - Ci|| 表示Xj到中心点Ci的欧式距离。

目标函数J越小越好，说以我们要求得目标函数J的极小值，这里如何求极小值就不推导了（对推导感兴趣的可以看这篇文章：https://blog.csdn.net/on2way/article/details/47087201），直接给出结论：

Uij的迭代公式：
在这里插入图片描述

Ci的迭代公式：
在这里插入图片描述

我们发现Uij和Ci是相互关联的，彼此包含对方，那么问题来了，fcm算法开始的时候既没有Uij也没有Ci，那么如何求解呢？很简单，程序一开始的时候我们会随机生成一个Uij，只要数值满足条件即可，然后开始迭代，通过Uij计算出Ci，有了Ci又可以计算出Uij，反反复复，这个过程中目标函数J一直在变化，逐渐绉向稳定。那么当J不在变化时就认为算法收敛到一个较好的结果了。

clear 
clc
% 注释中前面带数字的地方是您可能需要改的地方。
xls_name = '实验数据汇总.xls';  % 1.要读取的Excel表格的名字
%df = xlsread(xls_name);
[df,date]=xlsread(xls_name);
%data = df(:,2:4);
data=df(:,1:3);
plot3(data(:,1),data(:,2),data(:,3),'o');hold on;
%% 时间处理
%time = df(:,1)';
%date=cell2mat(date)
%time=date{3,1};
time=1:609;
%% 聚类处理
% 加权重在这一部分
% weight = [1.5,3,2]; % 2.权重向量，因为您的数据有三列，所以权重向量有三个分量,1.5,1,1
% [U,V,objFun] = myfcm(weight, data, 3); % 3.这条语句括号中的4设置聚成4类，改成3则聚为3类。
options=[3,20,1e-6,0];
cn=4;
X=data;
[center,U,obj_fcn]=fcm(X,cn,options);
Jb=obj_fcn(end);
maxU = max(U);
index1 = find(U(1,:) == maxU);
index2 = find(U(2, :) == maxU);
index3 = find(U(3, :) == maxU);
%% 分类情况
% 在前三类样本数据中分别画上不同记号 不加记号的就是第四类了
plot3(X(index1,1), X(index1, 2), X(index1, 3), 'linestyle', 'none', 'marker', 'x', 'color', 'g'); hold on; 
plot3(X(index2,1), X(index2, 2), X(index2, 3), 'linestyle', 'none', 'marker', '*', 'color', 'r'); hold on;
plot3(X(index3,1), X(index3, 2), X(index3, 3), 'linestyle', 'none', 'marker', '+', 'color', 'b'); hold on;
xlabel('speed','fontsize',12);
ylabel('volume','fontsize',12);
zlabel('occu','fontsize',12);
title('FCM方法聚类结果');

完整代码或者代写添加QQ1575304183

以上是关于如何运用聚类分析法？的主要内容，如果未能解决你的问题，请参考以下文章

k-means和iosdata聚类算法在生活案例中的运用

数据分析基于FCM进行交通数据聚类分析matlab源码