Spark MLlib机器学习概论

Posted 2020-12-18 yszd

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了Spark MLlib机器学习概论相关的知识，希望对你有一定的参考价值。

一.什么是机器学习？

　　什么是机器学习？Herbert Sinmon给“学习”做出了这样的定义：“如果一个系统能够通过执行某个过程而改进性能，这就是学习。”更通俗的理解是：机器学习能够自动地从数据中学习“程序”，而这个程序不是人来编写的。

　　平面上有两类点，黄色代表类别a，蓝色代表类别b。这时我们希望能够找到平面上的一条曲线，将两个类别的点分成两个平面，使类别a属于平面A，类别b属于平面B。这样一来，对于一个新出现的颜色未知的点x，我们通过查看点落在平面A还是平面B中来判断x属于哪个类别。

　　技术图片

　　当然，这个任务从人的视觉来看似比较容易完成的。人也可以将这个曲线用一个数学表达式来表示，但这个曲线方程是确定的，当观察到的数据发生变化时，需要重新调整方式，因此扩展性并不好。机器能够根据已经观测到的两个类别不同的情况自动给出不同的曲线表达式，这里的曲线就是我们常说的学习到的模型。这是一个有监督学习的典型案例。

　　这个案例中自动寻找曲线的算法是由SVM程序完成的。如今，机器学习已经被广泛应用于各个领域，例如：