MapReduce-线性回归
Posted xiashiwendao
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了MapReduce-线性回归相关的知识,希望对你有一定的参考价值。
线性回归有是三个值很重要:
1. 斜率
2. 截距:x和y轴的交点值;
3. 显著性:数据偏离线性的程度,用以判断数据可以用线性表示的程度;拟合度
apache.commons.math3里面有一个simpleRegression专门用于做线性分析;通过add函数来进行添加x值和y值;
基因聚合
感悟:Map阶段实现的就是数据的查询,筛选以及数据组织(组织成key,value形式)
算法:
算法一:单值
谈不上,Map阶段根据genId+refence对数据进行过滤(value > 1.04),并按照key(genId+refence)聚合,然后reduce统计数量,其实和wordcount一致;
算法二:均值
Map阶段获取数据,并按照key(genId+refence)进行聚合(key,List<value>;在reduce阶段对数据List<value>取平均值,取>1.04的数据;
以上是关于MapReduce-线性回归的主要内容,如果未能解决你的问题,请参考以下文章
R语言回归分析(regression)常见算法:简单线性回归多项式回归多元线性回归多水平回归多输出回归逻辑回归泊松回归cox比例风险回归时间序列分析非线性回归非参数回归稳健回归等