大数据:Spark mlib GradientDescent梯度下降算法之Spark实现
Posted raintungli
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了大数据:Spark mlib GradientDescent梯度下降算法之Spark实现相关的知识,希望对你有一定的参考价值。
1. 什么是梯度下降?
梯度下降法(英语:Gradient descent)是一个一阶最优化算法,通常也称为最速下降法。 要使用梯度下降法找到一个函数的局部极小值,必须向函数上当前点对应梯度(或者是近似梯度)的反方向的规定步长距离点进行迭代搜索。 先来看两个函数: 1. 拟合函数:θ 为参数向量, h ( θ )就是通过参数向量计算的值,n为参数的总个数,j代表的是一条记录里的一个参数
h(θ)=∑j=0nθjxj
2. 损失函数:
J ( θ ) = 12m ∑i=1m (hθ(x(i))−y(i))2
m为训练的集合数,i代表的是一条记录, hθ ( xi )代表的是第i条的 h ( θ ) 在监督学习模型中,需要对原始的模型构建损失函数 J ( θ ), 接着就是最小化损失函数,用以求的最优参数 θ 对损失函数 θ进行求偏导,获取每个 θ的梯度
∂J(θ)∂θ=−1m∑i=1m(yi−hθ(xi)大数据:Spark mlib KMeans聚类算法源码分析
大数据:Spark mlib Naive bayes朴素贝叶斯分类之多元朴素贝叶斯源码分析