一种基于属性值变化程度定权的聚类算法

Posted 测绘科学

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了一种基于属性值变化程度定权的聚类算法相关的知识,希望对你有一定的参考价值。


摘 要

针对经典K-means聚类算法以欧氏距离作为相似度判断法则进行聚类划分,而未考虑聚类对象的各属性值对聚类划分的影响程度存在差异的问题,提出了一种基于属性值变化程度定权的聚类算法。通过采用Iris dataset数据进行试验,该算法相对于其他聚类算法获得了更好的聚类效果,且该算法适用于生物物种分类、遥感影像识别等工作领域,能提高聚类运算的精准度。

引用格式


杨扬,许厚泽,常军. 一种基于属性值变化程度定权的聚类算法[J]. 测绘科学,2018,43(5):1-4.



正文


聚类分析是数据挖掘中经常采用的一种方法,用于划分属性、性质相似或相近的空间实体,被广泛应用于生物、生态、经济、医学、计算机及影像处理等众多领域。关于聚类分析的算法主要可分为6,即基于划分、基于层次、基于密度、基于图论、基于模型和基于网格的聚类算法;其中以1967年文献[3]提出的基于划分的K-means聚类算法最具代表性。由于K-means聚类算法流程简单、易于编程且运算复杂度低,因而广受青睐,但也存在着对初始点选取的依赖以及易受噪声干扰影响的缺陷。因此,后续的研究者相继提出了FCM[4]PAM[5]CLARANS[6]以及K-prototypes[7]算法,一定程度上克服了K-means算法的缺陷并改善了聚类效果。

 近几年,国内外学者针对K-means聚类算法也提出了一些改进算法。在提高聚类算法运行速度和效率方面,文献[8]提出了一种快速K-means聚类算法-聚类中心迁移算法,将聚类中心分为静态与活跃两组,最终实现减少迭代次数,提高算法运算效率的结果;文献[9]针对大数据环境下的数据挖掘问题,提出了基于MapReduce软件架构模型机制的K-means聚类算法优化;文献[10]提出了一种改进的K-means动态聚类算法,用于提高运算效率。在提高聚类算法准确度与可靠性方面,国外学者文献[11]基于聚类对象自身不同属性值对算法结果的影响,提出了自适应性K-means算法;文献[12]基于K-Harmonic means聚类算法进行了扩充和改进,将其用于处理具有混合型数据型的聚类样本;文献[13]采用统计学中描述数据离散程度的4种指标提出4种计算加权系数的方法,并应用于欧式距离加权,对K-means聚类算法进行了改进;文献[14]提出了一种自适应特征权重的K-means算法;文献[15]提出了一种先抽样再用最大最小距离进行K-means并行化聚类的方法,避免了聚类陷入局部解,实现聚类运算精度的提高;文献[16]提出了出一种基于优化抽样聚类的K-means 算法( OSCK) ,但OSCK 算法要求原始数据集必须是结构化随机均匀分布的数据,对于非结构化或非均匀分布数据,OSCK 算法可能难以处理或聚类性能很差;文献[17]提出了一种基于最小距离乘积的K-means聚类改进算法,利用数次抽样技术,在得到的聚类中心集合上继续使用最小乘积法寻找最佳的初始聚类中心,较大程度减少了K-means聚类算法对初值选取的随机性。

随着聚类对象数据量的增大及数据属性维度的增加,上述聚类算法难以有效地改善聚类结果的准确度与可靠性。其中大多数基于K-means改进的聚类算法,没有认真考虑数据内部结构中各属性对聚类划分的影响程度;或者仅仅是进行了简单分析和处理:将各属性的影响程度视为相同或是凭借经验知识进行影响程度的定权。本文结合现有的研究现状,基于Mugdha Jain提出的自适应性K-means算法原理,在顾及各属性对聚类划分结果影响程度的不同,通过对各属性在聚类运算过程中的重要性进行提前分析和量化,提出了一种基于属性值变化程度定权的聚类算法。

本文着重考虑了聚类样本的各属性对聚类结果影响程度存在差异的问题,在采用一定的数值分析方法基础上建立了对各属性权值的确立原则,并结合K-means算法流程提出了基于属性值变化程度定权的聚类算法。通过采用Iris dataset数据进行验证,发现基于属性值变化程度定权的聚类算法与其他3种聚类算法相比具有一定的优势,最终聚类结果的各项准确度指标均为最佳,能得到较好的聚类结果。从实际应用方面而言,该算法可用于生物物种分类,遥感影像判别等领域,用以提高聚类运算的精确度,优化聚类结果。但本文所分析的属性因子是植物的萼片、花瓣,其数值的变化程度相对规律且各属性因子之间的相似度比较接近,因此进行权值的确定相对容易。而在今后的研究中,大多数情况下遇到的聚类样本其自身包含的属性因子之间的关系相对复杂且具有不确定性,如何解决好此类属性值之间的定权问题是下一阶段研究的重点和难点。

 



往期热点文章

《测绘科学》











编辑:邓国 


《测绘科学》

主管:国家测绘地理信息局

主办:中国测绘科学研究院

出版:科学出版社

邮箱:niu@casm.ac.cn

网站:http://chkd.cbpt.cnki.net

———————————————————————

全国中文核心

中国科学引文数据库 (CSCD)核心

中国科技核心

———————————————————————

2017中国百强报刊

2015期刊数字影响力100强

全国优秀测绘地理信息期刊


觉得不错,请点赞↓↓↓


以上是关于一种基于属性值变化程度定权的聚类算法的主要内容,如果未能解决你的问题,请参考以下文章

DBSCAN聚类︱scikit-learn中一种基于密度的聚类方式

基于k-means的聚类算法—机器学习

初探DBSCAN聚类算法

为什么说K-Means是基于距离的聚类算法?

为什么说K-Means是基于距离的聚类算法?

基于网格的聚类算法STING