综述聚类算法海洋应用国内国外的现状
Posted 人工智能与大数据技术海洋应用
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了综述聚类算法海洋应用国内国外的现状相关的知识,希望对你有一定的参考价值。
综述聚类算法海洋应用国内国外的现状
Clustering Algorithm
综述
聚类分析研究有很长的历史,几十年来,其重要性及与其他研究方向的交叉特性得到人们的肯定.聚类是数据挖掘、模式识别等研究方向的重要研究内容之一,在识别数据的内在结构方面具有极其重要的作用。本文主要包含对聚类算法的介绍以及聚类算法在海洋方面的应用。
聚类算法研究
聚类算法主要应用于模式识别中的语音识别、字符识别等,机器学习中的聚类算法应用于图像分割和机器视觉,图像处理 中聚类用于数据压缩和信息检索.聚类的另一个主要应用是数据挖掘(多关系数据挖掘)、时空数据库应用(GIS 等)、序列和异类数据分析等.此外,聚类还应用于统计科学.值得一提的是,聚类分析对生物学、心理学、考古学、 地质学、地理学以及市场营销等研究也都有重要作用
聚类算法概念与聚类过程
迄今为止,聚类还没有一个学术界公认的定义.这里给出 Everitt在1974 年关于聚类所下的定义:一个类簇内的实体是相似的,不同类簇的实体是不相似的;一个类簇是测试空间中点的会聚,同一类簇的任意两个点间的距离小于不同类簇的任意两个点间的距离;类簇可以描述为一个包含密度相对较高的点集的多维空间中的连 通区域,它们借助包含密度相对较低的点集的区域与其他区域(类簇)相分离. 事实上,聚类是一个无监督的分类,它没有任何先验知识可用.
典型的聚类过程主要包括:数据(或称之为样本或模式)准备、特征选择和特征提取、接近度计算、聚类(或分组)、对聚类结果进行有效性评估等步骤
聚类过程:
1) 数据准备:包括特征标准化和降维.
2) 特征选择:从初的特征中选择有效的特征,并将其存储于向量中.
3) 特征提取:通过对所选择的特征进行转换形成新的突出特征.
4) 聚类(或分组):首先选择合适特征类型的某种距离函数(或构造新的距离函数)进行接近程度的度量; 而后执行聚类或分组.
5) 聚类结果评估:是指对聚类结果进行评估.评估主要有 3 种:外部有效性评估、内部有效性评估和相关 性测试评估.
聚类算法类别
没有任何一种聚类技术(聚类算法)可以普遍适用于揭示各种多维数据集所呈现出来的多种多样的结构.根据数据在聚类中的积聚规则以及应用这些规则的方法,有多种聚类算法.聚类算法有多种分类方法,本文将聚类算法大致分成层次化聚类算法、划分式聚类算法、基于密度和网格的聚类算法和其他聚类算法4 个类别.
聚类算法类别
改进Kmeans算法的海洋数据异常检测
—— Ocean data anomaly detection ——
本研究致力于海洋数据检测。为解决 Kmeans算法随机指定初始点聚类和海洋Argo浮标数据异常问题,提出一种改进Kmeans算法的海洋数据 异常检测方法,改进后的算法命名为DMKmeans。
实验关键算法
DMKmeans算法
选取给定邻域范围内最近邻数据点最多的点为初始中心点,迭代聚类,直到准则函数收敛,聚类结束
DMKmeans算法优化了传统Kmeans算法选取初始中心点 的方法,降低了聚类迭代次数并达到全局最优结果,有效 提高海洋监测数据异常检测率。
实验过程
第一步,提出DMKmeans算法,通过计算给定邻域范围内数据点密度值,按密度值大小降序排列数据集,剔除低于平均密度值的数据点。排除密度稀疏点,在剩下的数据点中选 取初始聚类中心点。
第二步,基于DMKmeans算法对海洋 监测数据进行异常检测研究,根据数据点距离所在簇簇心的最近距离与平均距离比较,结合数学模型来判断异常点。
第三步,将 DMKmeans算法与传统Kmeans算法及 Min-Max Kmeans算法做对比分析。
实验结果
以下为DMKmeans、MinMaxKmeans、传统Kmeans三种算法在异常检测的聚类结果图。
结果表明,DMKmeans算法能有效提高聚类准确率和异常检测率。
现场海域人工鱼礁分布状态聚类分析
—— Artificial reef distribution ——
实验简介
人工鱼礁的流场营造、鱼类诱集等建设目标,一般是通过单位鱼礁、鱼礁群等不同规模的形式实现的; 实际投放的成千上百个人工鱼礁处于何种分布状态、它们是否满足单位鱼礁等规模要求,是非常值得关注的课题。因此,如何对人工鱼礁的实际分布状态进行合理的划分归类或剔除,以最大程度地贴合设计方案的配置组合方式,对于正确评价鱼礁投放的准确与否是 非常必要并具有现实意义的。
实验内容
本研究基于C3D侧扫声呐系统采集的高清晰水下影像,结合ArcGIS 的数据矢量化功能,提取出各个鱼礁单体在水下的空间位置以及各鱼礁之间的相互距 离与方位等空间关系。在此基础上,利用空间聚类分析,借助基于划分、层次和约束的算法对 投放后的鱼礁进行划分、归类或剔除,并选择单位鱼礁的重心、影响面积、鱼礁单体数量以及礁 体间距4个指标进行比较分析,探明人工鱼礁实际的组合聚类模式。
实验结果
结果显示, 3种空间聚类 算法误差的排列顺序为约束算法 < 划分算法 < 层次算法,其值分别为0.093,0.203,0.264。 通过对比分析,在基于约束的聚类算法下,最能反映人工鱼礁的实际集聚情况。
3种聚类算法结果
a.划分算法 b.层次算法 c.约束算法
三种聚类算法重叠区域
重叠区域
—— 参考文献 ——
参考文献
孙吉贵,刘 杰 , 赵连宇.聚类算法研究
Jain AK, Flynn PJ. Image segmentation using clustering. In: Ahuja N, Bowyer K, eds. Advances in Image Understanding: A Festchrift for Azriel Rosenfeld. Piscataway: IEEE Press, 1996. 65−83.
素材/李深
文案/李深
校对/陈卓
排版/董文凯
以上是关于综述聚类算法海洋应用国内国外的现状的主要内容,如果未能解决你的问题,请参考以下文章