Spark学习笔记——构建分类模型

Posted tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Spark学习笔记——构建分类模型相关的知识,希望对你有一定的参考价值。

Spark中常见的三种分类模型:线性模型、决策树和朴素贝叶斯模型。

线性模型,简单而且相对容易扩展到非常大的数据集;线性模型又可以分成:1.逻辑回归;2.线性支持向量机

决策树是一个强大的非线性技术,训练过程计算量大并且较难扩展(幸运的是,MLlib会替我们考虑扩展性的问题),但是在很多情况下性能很好;

朴素贝叶斯模型简单、易训练,并且具有高效和并行的优点(实际中,模型训练只需要遍历所有数据集一次)。当采用合适的特征工程,这些模型在很多应用中都能达到不错的性能。而且,朴素贝叶斯模型可以作为一个很好的模型测试基准,用于比较其他模型的性能。

 

以上是关于Spark学习笔记——构建分类模型的主要内容,如果未能解决你的问题,请参考以下文章

4.Spark ML学习笔记—Spark ML决策树 (应用案例)随机森林GBDT算法ML 树模型参数详解 (本篇概念多)

手把手带你玩转Spark机器学习-使用Spark构建分类模型

生成模型学习笔记:从高斯判别分析到朴素贝叶斯

大数据学习笔记60:构建Spark机器学习系统

Spark学习笔记——构建基于Spark的推荐引擎

机器学习笔记一 绪论