k均值聚类算法(k-means clustering algorithm)

Posted 古今医案云平台

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了k均值聚类算法(k-means clustering algorithm)相关的知识,希望对你有一定的参考价值。

方以类聚,物以群分,吉凶生矣。——《周易·系辞上》

一、什么是聚类?

1.将有限集合中的对象划分成个非空子集,使得类内的对象相似、类间的对象不相似。

2.训练样本的标记信息未知,无监督学习。

3.通过对无标记训练样本的学习来揭示数据的内在性质及规律,为进一步的数据分析提供基础。

4.无监督学习中,应用最广的是“聚类”。

二、聚类的发展

1.思想早

“方以类聚,物以群分,吉凶生矣。”《周易. 系辞上》

2.算法晚

上个世纪五十年代,以层次聚类算法、k-means 算法为代表

3.研究热

聚类分析研究热是本世纪的事情,其标志事件是谱聚类、协同滤波和聚类不可能性定理的提出等

三、传统的聚类分析方法分为四个部分

1.数据表示

2.聚类判据(聚类准则)

3.聚类算法

4.聚类评估(聚类有效性评价)

四、聚类算法设计准则

1.类紧致性准则: 对象与其所属类具有最大相似度(或最小相异度)

增强样本可分公理的要求

2.类分离性准则: 不同类表示的差异最大(类间距离越大越好)

增强类可分公理的要求

3.类一致性准则: 输入与输出之间误差最小(通常假设为真)

减弱类表示唯一公理的要求

4.奥卡姆剃刀准则: 选择简单的类表示

五、K-means算法

k均值聚类算法(k-means clusteringalgorithm)是一种迭代求解的聚类分析算法,其步骤是,预将数据分为K组,则随机选取K个对象作为初始的聚类中心,然后计算每个对象与各个种子聚类中心之间的距离,把每个对象分配给距离它最近的聚类中心。聚类中心以及分配给它们的对象就代表一个聚类。每分配一个样本,聚类的聚类中心会根据聚类中现有的对象被重新计算。这个过程将不断重复直到满足某个终止条件。终止条件可以是没有(或最小数目)对象被重新分配给不同的聚类,没有(或最小数目)聚类中心再发生变化,误差平方和局部最小。k均值聚类是使用最大期望算法(Expectation-Maximizationalgorithm)求解的高斯混合模型(GaussianMixture Model, GMM)在正态分布的协方差为单位矩阵,且隐变量的后验分布为一组狄拉克δ函数时所得到的特例。

基本的步骤为:

step1:选定要聚类的类别数目k,选择k个中心点。

step2:针对每个样本点,找到距离其最近的中心点(寻找组织),距离同一中心点最近的点为一个类,这样完成了一次聚类。

step3:判断聚类前后的样本点的类别情况是否相同,如果相同,则算法终止,否则进入step4

step4:针对每个类别中的样本点,计算这些样本点的中心点,当做该类的新的中心点,继续step2

六、中医应用

通过对收集的944例高血压病病人症状进行频率描述,剔除频率百分比≤20%症状后,将剩余58个临床症状作为变量进行K-means聚类分析,得出聚类为7类时症状分布最明显,原始证型分类为痰湿壅盛、脾运失健、心肾失养,占212%;阴阳两虚、气血不足,占17.5%;气虚血瘀,占15.6%;肝火亢盛、心肾不足,占14.5%;中气不足、生化失源、水湿不化,占13.8%;肾阴不足、肝阳上亢、心肾不交,占8.9%;肾阳不足、心脾两虚,占8.6%。经过聚类分析总结后,按其所占比例排序,最终分类为7:痰湿壅盛型、阴阳两虚型、气虚血瘀型、肝火亢盛型、中气不足型、阴虚阳亢型、肾阳不足型。

k均值聚类算法(k-means clustering algorithm)

k均值聚类算法(k-means clustering algorithm)

k均值聚类算法(k-means clustering algorithm)

通过K-means聚类分析对944例高血压病病人中医证型进行分类、研究、分析及认识,为中医临床辨证论治提供更多理论依据和参考,有助于防治及控制疾病的进一步发生及发展,建立完善的高血压病中医证型体系。

参考文献:卢双双,张进进,马晓聪,李玉华,陈春玲,岳桂华.高血压病人中医证型的聚类分析[J]. 中西医结合心脑血管病杂志,2019,04:485-488.

 推荐阅读:


2.

3.

4.

5.

k均值聚类算法(k-means clustering algorithm)


k均值聚类算法(k-means clustering algorithm)

古今医案云平台


供40余万古今医案检索服务


支持手工、语音、OCR、批量医案结构化录入


设计九大分析模块,贴近临床实际需求


支持平台海量医案与个人医案协同分析

云医案APP


云医案V1.2.4新增健康医历、快速采集的功能。对写医案、说医案和扫医案的字段输入进行整体优化以及局部功能变更,医案管理、医案同步、个人中心做了相应调整。


仅支持安卓手机,扫描下方二维码进行下载或识别下载。


中国中医科学院中医药信息研究所

中医药大健康智能研发中心

大数据研发部

qq:2778196938

客户端下载:www.yiankb.com


以上是关于k均值聚类算法(k-means clustering algorithm)的主要内容,如果未能解决你的问题,请参考以下文章

在大数据量时,K-means算法和层次聚类算法谁更有优势

K-均值(K-means)聚类算法

K均值聚类算法

聚类算法(K-means聚类算法)

不足20行 python 代码,高效实现 k-means 均值聚类算法

读书笔记│k-means聚类算法及应用