一种基于多属性权重的分类数据子空间聚类算法
Posted AAS自动化学报
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了一种基于多属性权重的分类数据子空间聚类算法相关的知识,希望对你有一定的参考价值。
自动化学报
Acta Automatica Sinica
子空间聚类是指:根据数据相似性,将大规模数据集划分为若干类簇,簇内数据彼此相似,簇间数据彼此相异。不同的类簇存在于不同的相关属性子空间中,在全属性空间上无法形成有意义的簇集。
目前许多应用领域中的数据呈现高维性的特征,例如:序列数据、基因数据、零食交易数据等,针对高维数据的数据挖掘技术将面临诸多难题,伴随维度效应,产生了许多需要解决的问题。
高维数据聚类过程中面临的主要问题
子空间聚类是目前解决高维数据聚类问题的有效途径之一。根据加权方式的不同,子空间聚类算法可以分为软子空间聚类算法和硬子空间聚类算法两类,其中,硬子空间聚类主要是指对于各个数据簇,从全部特征集合中选取某些特征子集组成其相应子空间;软子空间聚类又称为特征加权聚类,是指在聚类过程中对数据簇的各个特征赋予一个特征加权系数,在聚类过程中得到不同数据簇对应数据特征的重要性。
分类数据是指数据属性值是分类型的数据,分类属性取值都是有限无序的,且不可比较大小,也无法进行数值运算。目前分类数据广泛存在于社会生活中的各个领域,由于分类数据的特殊性,传统适用于数值型数据的聚类算法显然无法处理分类数据的聚类问题。
分类数据子空间聚类的示例
面对高维分类数据的聚类需求,本文采用多属性频率权重以及多目标簇集质量聚类准则, 提出一种分类数据子空间聚类算法。 该算法利用粗糙集理论中的等价类, 定义了一种多属性权重计算方法, 有效地提高了属性的聚类区分能力; 在多目标簇集质量函数的基础上, 采用层次凝聚策略, 迭代合并子簇, 有效地度量了各类尺度的聚类簇; 利用区间离散度, 解决了使用阈值删除噪音点所带来的参数问题;利用属性对簇的依附程度, 确定了聚类簇的属性相关子空间, 提高了聚类簇的可理解性。 最后, 采用人工合成、UCI 和恒星光谱数据集, 实验验证了该聚类算法的可行性和有效性。
本文的主要贡献如下:
1) 定义了一种基于多属性频率的属性权重计算方法;
2) 给出了一种基于多目标簇集质量的聚类准则;
3) 提出了一种基于多属性权重的分类数据子空间聚类算法。
引用格式
庞宁, 张继福, 秦啸. 一种基于多属性权重的分类数据子空间聚类算法. 自动化学报, 2018, 44(3): 517-532.
作者简介
庞宁,太原科技大学博士研究生, 副教授。2007 年获得山西大学计算机与信息技术学院硕士学位。主要研究方向为数据挖掘,并行计算.
E-mail: pn529@126.com
张继福,太原科技大学计算机科学与技术学院教授。2005 年获得北京理工大学计算机学院博士学位。主要研究方向为数据挖掘, 并行与分布式计算, 人工智能。本文通信作者.
E-mail: jifuzh@sina.com
秦啸,美国奥本大学计算机科学与软件工程系教授。2004 年获得美国内布拉斯加州林肯大学计算机学院博士学位。主要研究方向为并行与分布式系统, 存储系统, 容错和性能评估。
E-mail: qinxiao@gmail.com
自动化
学报
欢迎扫描二维码、长按图片识别关注《自动化学报》中文版订阅号aas1963,服务号自动化学报和英文版服务号!
JAS《自动化学报》(英文版)
自动化学报服务号
自动化学报订阅号
联系我们
Tel: 010-82544653(日常咨询和稿件处理)
010-82544677(录用后稿件处理)
Fax: 010-82544497
aas_editor@ia.ac.cn(录用后稿件处理)
http://www.aas.net.cn
这里“阅读原文”,查看更多
以上是关于一种基于多属性权重的分类数据子空间聚类算法的主要内容,如果未能解决你的问题,请参考以下文章