大数据学习——常用的数据分析法和模型
Posted 编程圈子
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了大数据学习——常用的数据分析法和模型相关的知识,希望对你有一定的参考价值。
产品的基本数据指标
- 新增:日新增、月新增
- 活跃:如日活跃(DAU)、月活跃(MAU)等
- 留存率:用户会在多长时间内使用产品,如:次日留存率、周留存率等
- 传播:平均每位老用户会带来几位新用户
- 流失率:一段时间内流失的用户,占这段时间内活跃用户数的比例
- 地域分布
- 使用时长分布
常见的数据分析法和模型
直方图(频率分布)分析
将某参量的数值范围等分为若干区间,统计该参量在各个区间上出现的频率,并用矩形条的长度表示频率的大小。
箱线图(数据分布)分析
箱线图(Boxplot)也称箱须图(Box-whisker Plot),是利用数据中的五个统计量:最小值、第一四分位数、中位数、第三四分位数与最大值来描述数据的一种方法,它也可以粗略地看出数据是否具有有对称性,分布的分散程度等信息,特别可以用于对几个样本的比较。
时间序列图(趋势)分析
描述流程特性值在一段时间内变化波动的趋势和规律的统计工具,如整个流程大体在什么范围内运行、是否具有波动较大的时期或时点等。
散点图(相关性及数据分布)分析
散点图(scatter diagram),在回归分析中,数据点在直角坐标系平面上的分布图。
散点图表示因变量随自变量而变化的大致趋势,据此可以选择合适的函数对数据点进行拟合。
百科对此有更详细解释:
百科链接
示例:
对比图分析(差异分析)
对比分析就是将两个或两个以上的数据进行比较,分析它们之间的差异,从而揭示这些数据所代表事物的发展变化情况和规律。通过对比,可以很直观地看出事物在某方面的差距,并且可以准确、量化地表示出差距的多少。
实际使用中使用简单的柱状图可进行对比图分析。
算术平均分析(差异分析)
运用计算平均数的方法反应总体在一段时间、地点条件下,某一数量特征的一般水平。平均指标既可用于同一现象在不同地区、不同部门间的横向比较,也可用于同一现象在不同时间的对比。
移动平均分析(趋势分析)
趋势平均法是指以最近若干时期的平均值为基础,来计算预测期预期值的一种方法。趋势平均法指在移动平均法计算n期时间序列移动平均值的基础上,进一步计算趋势值的移动平均值,进而利用特定基期销售量移动平均值和趋势值移动平均值来预测未来销售量的一种方法。
漏斗图分析(差异分析)
漏斗图适用于业务流程比较规范、周期长、环节多的流程分析,通过漏斗各环节业务数据的比较,能够直观地发现和说明问题。
在网站分析中,通常用于转化率比较。
示例:
本文参考:
http://blog.csdn.net/zhanghongju/article/details/18901857
http://item.jd.com/11295690.html
以上是关于大数据学习——常用的数据分析法和模型的主要内容,如果未能解决你的问题,请参考以下文章