大数据:Spark mlib GradientDescent梯度下降算法之Spark实现

Posted raintungli

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了大数据:Spark mlib GradientDescent梯度下降算法之Spark实现相关的知识,希望对你有一定的参考价值。

1. 什么是梯度下降?

梯度下降法(英语:Gradient descent)是一个一阶最优化算法,通常也称为最速下降法。 要使用梯度下降法找到一个函数的局部极小值,必须向函数上当前点对应梯度(或者是近似梯度)的反方向的规定步长距离点进行迭代搜索。 先来看两个函数: 1.  拟合函数:
θ
θ
为参数向量, h ( θ )就是通过参数向量计算的值,n为参数的总个数,j代表的是一条记录里的一个参数
h(θ)=j=0nθjxj

2. 损失函数:

J ( θ ) = 12m i=1m (hθ(x(i))y(i))2


m为训练的集合数,i代表的是一条记录, hθ ( xi )代表的是第i条的 h ( θ ) 在监督学习模型中,需要对原始的模型构建损失函数 J ( θ ),  接着就是最小化损失函数,用以求的最优参数 θ 对损失函数 θ进行求偏导,获取每个 θ的梯度

J(θ)θ=1mi=1m(yihθ(xi)大数据处理为何选择spark?

如何成为云计算大数据Spark高手

大数据入门核心技术-Spark执行Spark任务的两种方式:spark-submit和spark-shell

大数据(spark sql 和 spark dataframes 连接)

大数据之Spark:Spark 基础

大数据中的Spark指的是啥?