PIE-Basic 非监督分类

Posted 2020-12-16 piesat

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了PIE-Basic 非监督分类相关的知识，希望对你有一定的参考价值。

功能概述

1.1 遥感图像分类的概念

遥感技术能够实现宏观、迅速的大范围信息提取，被各个行业广泛应用。遥感图像分类是图像信息提取的一种方法，是遥感数字图像处理的重要环节之一。

遥感图像分类：根据感兴趣目标在遥感图像上的特征差异，判断并识别其类别属性和空间分布特征等信息的过程。

重点关注：

选择哪些有效特征进行分类
选择什么方法进行分类
分类方法的参数如何设置

示例：区分幼儿园小朋友的性别

变量（遥感的不同光谱波段）
观测样本（遥感像元）	身高	体重	服装样式	鞋子颜色	头发长短	其他特征（如行为）
观测样本（遥感像元）	波段1	波段2	波段3	波段4	波段5	其他特征（如空间纹理）
张三	?	?	?	?	?	?
李四	?	?	?	?	?	?
王五	?	?	?	?	?	?
……	?	?	?	?	?	?

分类的本质就是从观测样本的属性中选取对判断目标具有差异的特征，并利用这些特征建立判断标准，从而将观测样本划分为不同的类别。

1.2 遥感图像分类的原理

地物在遥感影像上的每个属性均可被当作一个变量，参与分类的这些属性（也称特征向量）构成一个n维的特征空间。

理想情况下，同类地物应具有相同或者相似的特征描述，因此他们的像元在n维特征空间中聚集在一起；而不同地物应具有不同的特征描述，因此不同地物的像元在n维的特征空间中呈现分离的状态。

一个像元可以看成由n个特征组成的n维空间的一个点
同类地物的像元形成n维空间的一个点群，差异明显的不同地物会构成n维空间的若干个点群。
计算机分类就是要分析特征空间这些点群的特点，如点群的位置、分类中心，从而确定点群的界限，最终完成分类任务。

二维特征空间分类

三维特征空间分类

1.3 遥感图像分类的方法

基于光谱特征的遥感影像分类方法主要包括：

非监督分类
监督分类

遥感图像分类过程：

（1）分类的目的及研究区背景了解

（2）数据获取

（3）数据预处理

（4）分类类别确定和解译标志确立

（5）训练样本选取和评价

（6）特征提取和选择

（7）分类方法的选择

（8）图像分类

（9）分类后处理

（10）精度评价

1.4 分类方法比较

监督分类和非监督分类的根本区别点在于是否利用训练样本来获取先验的类别知识。

技术图片

1.5 遥感图像分类概念

示例：区分女演员的民族

有一群你一个都不认识的女演员，她们各自穿着自己民族的服装，请将她们民族识别出来。

思路1：先将女演员按照她们服装特征的相似程度进行归类（此时你不知道该服装类别是哪个民族），然后再去查找各民族服饰的特征介绍，由此判断各类别是什么民族。（这种先聚类再判断类别的方法属于非监督分类）

思路2：先根据画册找出各民族对应的服装的特征，然后根据女演员穿着的服装特征将各个女演员归类到各民族中。（这种先学习先验知识再分类的方法属于监督分类）

总结：监督分类和非监督分类，都需要给出特征，监督分类需要给出样本，让系统根据样本学习并总结规律，然后对未知领域进行预测归类。非监督分类是没有样本，系统随机选择一些种子点，根据特征进行聚类和优化，最后来确定各类的语义。

1.5 非监督分类应用

非监督分类方法不需要对被研究的地区有事先的了解，仅需一定的知识来解释分出的类别，人为误差的机会减少，操作也相对简单。因非监督分类整体计算量相对较小，对计算机配置要求较低，在时间和成本上较为节省，且分类成果具有一定的精度，可应用于分类精细化程度不高的快速分类的场景中，如基于中低分辨率的遥感影像森林、农作物的大范围提取等。
非监督分类想要得到相对可靠的结果，需对结果进行大量分析和处理，但分类出的结果依然普遍会存在"同物异谱"或者"异物同谱"现象，地物类别的细分难度较大。在项目实际操作中进行精细化分类时，不会选择非监督分类作为唯一分类手段，通常会结合监督分类等其他分类方法混合使用，来使分类成果达到预期的目的。

2.基本概念

非监督分类：

在没有先验类别（训练场地）作为样本的条件下，主要根据像元间相似度的大小进行归类合并（相似度大的像元归为一类）的方法。它是以聚类分析作为理论基础，所以非监督分类又称为聚类分析。

补充说明：非监督分类的前提是假定遥感影像上同类物体在同样条件下具有相同的光谱特征。非监督分类不必对影像地物获取先验知识，紧依靠影像上不同地物光谱信息（或纹理信息）进行统计地物特征的差别来达到分类的目的，最后通过目视判读或者实地调查对分类结果进行属性确认。

聚类分析：

非监督分类采用的主要方法是聚类分析。

把一组像素按照相似性归成若干类别，其目的是使得属于同一类别的像素之间距离尽可能的小，而不同类别的像素之间距离尽可能的的大，在遥感图像分类中主要实现算法包括：

K-Means分类算法
ISODATA分类算法
神经网络分类算法

K-Means分类：

K-Means算法的基本思想是以空间中k个点为中心进行聚类，对最靠近中心的对象进行归类。通过迭代的方法，逐次更新各聚类中心的值，直至得到最好的聚类结果。

技术图片

示例：K-Means分类演示

技术图片

ISODATA分类：

ISODATA算法（迭代自组织数据分析算法）是在k-均值算法的基础上，增加对聚类结果的"合并"和"分裂"两个操作，并可设定算法运行控制参数的一种聚类算法。
与k-均值算法相比，ISODATA算法不仅可以通过调整样本所属类别完成样本的聚类分析，而且可以自动地对类别进行"合并"和"分裂"，从而得到类数比较合理的聚类结果，而k-均值算法的类别数是设置后不能变化的。

初始参数设置：

K : 期望得到的聚类数；???
Nc: 初始的设定的聚类数；???
θN: 每一个类别中最少的像元数，若少于此数则去掉该类别；???
θs: 一个类别中，样本特征中最大标准差。若大于这个值，则可能分裂；
θc: 两个类别中心间的最小中心距离，若小于此数，把两个类别需进行合并；
L: 在一次合并操作中，可以合并的类别的最多对数；
I: 最大迭代运算的次数。

ISODATA分类主体部分描述：

ISODATA算法

第一步：从遥感影像上随机选取Nc个初始聚类中心。

第二步：用最小距离法计算每个样本到聚类中心 Sj 的最小距离，并将其分到距离最小的聚类中心所在的类别中。

第三步：判断每个类别中像元数目是否小于θN，如果 Sj 中的像元数目 Sj < θN，则删除该类别，此时Nc=Nc-1。被删除类别中的像元重新分配到剩下距离最小的类别中。

第四步：针对每个类别，重新计算它的聚类中心。

第五步：若 Nc ≤ K/2，即聚类中心的数目小于或等于预期值的一半，说明当前类别数太少，前往进行分裂操作。

第六步：若迭代运算的次数是偶数次，或Nc≥2K，说明当前类别数太多，前往进行合并操作。

第七步：如果达到最大迭代次数（I）则终止，否则回到第二步继续执行

技术图片

BP神经网络分类：

神经网络是源于对生物大脑机理的仿生学研究。 BP算法通过样本和标签值对神经元网络进行训练，采用反向传播算法来逐层调整各神经元的权重及截距，使得最终的输出和标签值接近。

技术图片

误差反向传播法原理示意图

自组织特征映射网络是由输入层和输出层组成。

技术图片

自组织特征映射网络

技术图片

示例：把属性相似的16种动物进行归类

技术图片

自组织特征映射网络的输出平面有10x10个神经元，用16个动物模式轮番输入进行训练，最后输出平面成果如下图所示，属性相似的动物在输出平面上的位置相邻。

技术图片

3.操作演示

使用数据：

高分六号数据，非监督分类.img

操作流程：

技术图片

3.1 K-Means分类：

打开PIE-Basic软件，在"图像处理"标签下的"图像分类"组，单击【非监督分类】按钮下的下拉箭头，选择【K-Means分类】，打开【K-Means分类】对话框：

技术图片

波段选择：可以选择所有波段，也可以选择部分波段，通常都是选择所有波段进行处理；
参数设置：
预期数类：期望得到的类别数。分类前对遥感影像进行分析，检查影像整体上需要分出的类别数，设置的类别数与最终分类结果一致，是该算法最重要的参数；
最大迭代次数：最大的运行迭代次数（为达到较好的运行效果，一般设置6次以），理论上迭代次数越多，分类结果越精确；
终止阈值：当迭代计算的新聚类中心与原聚类中心距离等于或小于阈值，则终止迭代计算，阈值范围在0-1之间。当距离接近设置的阈值时，说明新聚类中心已经趋于稳定，聚类集合中样本数量和位置不会发生较大的改变。

技术图片

注：K-Means分类参数设置最重要的是预期数类数，该参数对分类结果的正确性起到决定性影响。

3.2 ISODATA分类：

打开PIE-Basic软件，在"图像处理"标签下的"图像分类"组，单击【非监督分类】按钮下的下拉箭头，选择【ISODATA分类】，打开"ISODATA分类"参数设置对话框：

技术图片

【波段选择】栏可以选择所有波段，也可以选择部分波段，通常都是选择所有波段进行处理；
参数设置：
预期类数：分类前对遥感影像进行分析，检查影像整体上需要分出的目标类别数，预期类数通常是目标类别数量的2-3倍，若后期分类效果不好，可再次调整此参数；
初始类数：通常填写比预期类数略大一些的数值；
最小像元数：设置形成一类别所需的最少像元数，可设置的较大一些。此处参数可用来减少出现细碎斑点的分类成果；
最大迭代次数：理论上迭代次数越多（通常设置均应在6次以上），分类结果越精确；
最大标准差：该参数是设置分裂的阈值，如果某一类别的标准差比该阈值大，该类将被拆分成两类。根据影像灰度值设置此参数，若同一类别中存在多种地物需分离，为放大类别之间的差异，该参数值应往小的方向设置；
最小中心距离：两类别中心点的距离小于输入的最小值，则类别将被合并。为避免同一类别被分成多个图层，该参数设置应往小的方向设置；
最大合并对数：一次迭代运算中可以合并的聚类中心的最多对数。