模式识别(Pattern Recognition)学习笔记--何为模式识别
Posted eternity1118_
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了模式识别(Pattern Recognition)学习笔记--何为模式识别相关的知识,希望对你有一定的参考价值。
一、什么是模式和模式识别?
当我们人眼看到一幅画时,我们能够很清晰的知道其中哪里是动物,哪里是山,水,人等等,但是人眼又是如何识别和分辨的呢,其实很简单,人类也是在先验知识和对以往多个此类事物的具体实例进行观察的基础上得到的对此类事物整体性质和特点的认识的,并不是人类原本就有对这类事物的记忆,就好比婴孩时期的我们,并不知道什么是狗,什么是帅哥,什么是美女,但是随着我们的慢慢长大,我们观察的多了,见的多了,再加上过来人的经验指导,我们就知道的多了,也懂得的多了,就觉得自己很牛逼了。
其实,每一种外界的事物都是一种模式,人类平均每天都在进行着很多很多的各种各样的模式识别,人们对外界事物的识别,很大部分是把事物进行分类来完成的;那么如何让机器活计算机做到人眼这么牛逼呢,哪怕是达到人眼识别的10%也好啊,哈哈,答案显而易见了,模仿人眼的分类啊。
《说文》中记载,模,法也;式,法也。可以看出,模和式的意思是一样的,简单来说就是一种规律;而在英文中,模式pattern这个词的意思有两层,第一层是代表事物(个体或一组事物)的模板或原型;第二层是表征事物特点的特征或性状的组合。在模式识别学科中,模式可以看做是对象的组成成分或影响因素间存在的规律性关系,或者是因素间存在的确定性或随机性规律的对象、过程或事件的集合。因此,也有人把模式成为模式类,模式识别也被称作为模式分类(Pattern Classification)。
《说文》中,识,知也;别,分解也;识别就是将事物对象进行分门别类,因此模式识别就是对模式的区分和认识,是事物样本到类别的映射。
模式识别作为一门交叉学科,其研究的重点不是人类进行模式识别的神经生理学或生物学原理,而是研究如何通过一系列数学方法让机器来实现类人的识别能力。这是我们的长期奋斗目标,也是有着极大研究意义的学科,希望它能够在各专家和学者的不懈努力下实现更大的突破。
这里,要记住一些模式识别的专业术语:
样本(sample),要研究对象的一个个体,注意与统计学中的不同,类似于统计学中的实例(instance);
样本集(sample set),样本的集合,统计学中的样本就是指样本集;
类或类别(class),在所有样本上定义的一个子集,处于同一类的样本,我们说她们具有相同的模式;习惯性地,我们用w1,w2等来表示类别,两类问题中也会用0,1或-1,1;
特征(feature),表征样本的特点或性状的量化集合,通常是数值表示(对于非数值形式,要转化为数值特征),也被称作为属性,如果是多个特征,就组成了特征向量(feature vector)。样本的特征构成了样本特征空间,空间的维数就是特征的个数,每一个样本就是特征空间中的一个点。
已知样本(known sample),已经事先知道类别的样本;
未知样本(unknown sample),类别标签未知但特征已知的样本;
二、模式识别的主要方法
解决模式识别的方法主要有:模板匹配法,ANN法,基于知识的方法和基于数据的方法;
基于知识的方法就是专家系统,句法识别就属于基于知识的,但是句法识别不常用;基于数据的方法也就是基于统计的方法,即依据统计原理来构造分类器,来对未知样本进行预测,这种学习过程是机器学习中研究最多的一个方向,也是模式识别采用的最主要方法。ANN也就是大名鼎鼎的神经网络,哈哈。
模式识别的研究范畴,存在两个极端,要么分类和特征之间的关系完全确定,要么完全随机。
三、监督的和无监督的
简单来说,类别已定的就叫做有监督分类,反之就是无监督分类;前者因为我们有已知划分类别的训练样本来作为学习过程的“导师”,所以很多时候,有监督和无监督,又叫做有导师学习和无导师学习;
后者,在不知道要划分的是什么类别时,我们要做的工作是聚类(clustering),根据样本特征将样本聚成多少类,使属于同一类的样本在一定意义上是相似的,不同类之间的样本则有较大差异,通过聚类得到的类别也称作为聚类,但是通常在聚类中存在一个尺度问题,当设置的尺度不一样,得到的聚类也不一样。所以在很多无监督识别问题中,分类结果并不一定是唯一的,因此在没有特别指定的目的情况下,很难说哪种分类方案更合理。另外,用一种方法在一个样本集上完成了聚类分析,得到了若干个聚类,这种聚类结果只是数学上的一种划分,对应用的实际问题是否有意义,还需要结合更多更专业的知识来进行解释。
四、常见的模式识别系统
主要有:语音识别,说话人识别,OCR,复杂图像中特定目标的识别,根据地震勘探数据对地下储层性质的识别,利用基因表达数据进行癌症的分类等等;
五、模式识别系统的构成
一个模式识别系统通常包括典型的四个部分(如下图):对原始数据的获取和预处理,特征提取与特征选择,分来或聚类,后处理;以上四个部分,无论是监督的还是无监督的都共有的,可以说是整个系统的核心所在,也是模式识别学科的主要研究内容。
未完待续。。。以此激励自己不要偷懒辣。。
以上是关于模式识别(Pattern Recognition)学习笔记--何为模式识别的主要内容,如果未能解决你的问题,请参考以下文章
模式识别原理(Pattern Recognition)概念系统特征选择和特征
模式识别(Pattern Recognition)学习笔记(三十)--随机森林(Random Forest)
模式识别(Pattern Recognition)学习笔记(二十八)-- 决策树
模式识别(Pattern Recognition)学习笔记(二十九)--决策树的剪枝