你真的懂数据分析吗?一文读懂数据分析的流程基本方法和实践
Posted 大数据DT
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了你真的懂数据分析吗?一文读懂数据分析的流程基本方法和实践相关的知识,希望对你有一定的参考价值。
导读:无论你的工作内容是什么,掌握一定的数据分析能力,都可以帮你更好的认识世界,更好的提升工作效率。数据分析除了包含传统意义上的统计分析之外,也包含寻找有效特征、进行机器学习建模的过程,以及探索数据价值、找寻数据本根的过程。
本文摘编自《Spark机器学习进阶实战》,如需转载请联系我们
01 数据分析流程
数据分析可以帮助我们从数据中发现有用信息,找出有建设性的结论,并基于分析结论辅助决策。如图1所示,数据分析流程主要包括业务调研、明确目标、数据准备、特征处理、模型训练与评估、输出结论等六个关键环节。
▲图1 数据分析流程
数据分析能力并非一朝一夕养成的,需要长期扎根业务进行积累,需要长期根据数据分析流程一步一个脚印分析问题,培养自己对数据的敏感度,从而养成用数据分析、用数据说话的习惯。当你可以基于一些数据,根据自己的经验做出初步的判断和预测,你就基本拥有数据思维了。
02 数据分析基本方法
数据分析是以目标为导向的,通过目标实现选择数据分析的方法,常用的分析方法是统计分析,数据挖掘则需要使用机器学习构建模型。接下来介绍一些简单的数据分析方法。
1. 汇总统计
统计是指用单个数或者数的小集合捕获很大值集的特征,通过少量数值来了解大量数据中的主要信息,常见统计指标包括:
分布度量:概率分布表、频率表、直方图
频率度量:众数
位置度量:均值、中位数
散度度量:极差、方差、标准差
多元比较:相关系数
模型评估:准确率、召回率
汇总统计对一个弹性分布式数据集RDD进行概括统计,它通过调用Statistics的colStats方法实现。colStats方法可以返回RDD的最大值、最小值、均值、方差等,代码实现如下:
import
org.apache.spark.MLlib.linalg.Vector
以上是关于你真的懂数据分析吗?一文读懂数据分析的流程基本方法和实践的主要内容,如果未能解决你的问题,请参考以下文章