机器学习的常见算法与Perl语言入门
Posted 牛学汇
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了机器学习的常见算法与Perl语言入门相关的知识,希望对你有一定的参考价值。
机器学习与Perl语言入门
机器学习能完成诸如分类、聚类、回归等任务。那它是如何完成这些任务的呢?是通过各种机器学习的算法来完成的。常见的算法有贝叶斯、最近邻居、决策树、支持向量机、人工神经网络、遗传算法等。我们没有足够的时间从理论上完全掌握这些算法,但是应该从科普的角度至少知道他们是怎么回事。这里挑其中一二给大家介绍一下。
所谓贝叶斯算法就是基于贝叶斯原理的一种概率统计算法。该算法能运用到大型数据库中,而且方法简单、分类准确率高、速度快。
再来看看最近邻居法,它是把已知物体根据它们的属性,标记在一个坐标系中。比如各种钉子根据它们的外形是红色这堆,各种螺丝是绿色这堆,蓝色这堆是这种螺母。因为螺母外形上跟钉子和螺丝差别较大,所以在坐标系中,它离另两种物体比较远。接下来我们根据新物体的外形把它也标记在坐标系中。然后看离它最近的邻居是什么,它就是什么。这里,离新物体最近的是螺母,那么新物体就应该被分类为螺母。
决策树非常好理解,给大家举个例子就明白了。这是个保险公司统计的被保人所处年龄、所开车型与出险率高低的统计率。历年数据显示,23岁开家庭车的司机风险高,17岁开跑车的高,简直就是马路杀手,43岁开跑车的也高,看来跑车风险就是高。68岁开家庭车的低。32岁开大卡车的也低。别问什么,这是德国教材上的例子。现在我们来看看保险公司利用这些数据都做了什么。他们根据这些数据画了一棵树,并利用这棵树对即将投保的人进行风险评估。先判断车型,大卡车的风险低,不是大卡车的再判断年龄,60岁以上低,60岁以上高。有了这棵树,只要知道新投保人的年龄和车型,就可以判断出风险高低。这就是决策树。
支持向量机和最近邻居差不多,也是把已知物体根据属性标记在坐标系中,然后画一条线。画的这条线要尽可能的把不同物体全部分开。新物体落在线的哪一侧就属于哪种物体。问题的关键就是这条线怎么画。绿色和蓝色两种画法肯定都没有黄色画法好。比如绿色这条线,如果新物体落在这个位置,因为他在绿线的右侧,所以他会和黄色归入一类,但实际上他跟这堆蓝色离得更近。如果,这条线画成黄线这样,就不会出现刚才的问题。所以我们要画这样一条线,首先这条线要把不同的已知物体尽可能的分开,且线两边距离线最近的物体到线的垂直距离要尽可能的大。也就是所谓的间隔最大化,也叫做最大最小距离。只有这样画出线才能成功完成任务。
了解了这些基本的算法,才具备了理论功底。如何运用这些算法呢?需要借助计算机语言来完成。Perl语言是当前市场中比较流行的一种计算机程序语言,它运行在超过100种计算机平台上,试用广泛。下面简单介绍几种perl语言基本语句。
以上为基础知识讲解,其中基本语言是随时可以翻出来看一看,或者自己动手试一试的。相信通过学习,你会逐渐掌握这门计算机语言。See you !
长按二维码关注
以上是关于机器学习的常见算法与Perl语言入门的主要内容,如果未能解决你的问题,请参考以下文章
机器学习机器学习入门02 - 数据拆分与测试&算法评价与调整