你真的懂数据分析吗?一文读懂数据分析的流程基本方法和实践

Posted 大数据DT

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了你真的懂数据分析吗?一文读懂数据分析的流程基本方法和实践相关的知识,希望对你有一定的参考价值。


导读:无论你的工作内容是什么,掌握一定的数据分析能力,都可以帮你更好的认识世界,更好的提升工作效率。数据分析除了包含传统意义上的统计分析之外,也包含寻找有效特征、进行机器学习建模的过程,以及探索数据价值、找寻数据本根的过程。


本文摘编自《Spark机器学习进阶实战》,如需转载请联系我们



01 数据分析流程


数据分析可以帮助我们从数据中发现有用信息,找出有建设性的结论,并基于分析结论辅助决策。如图1所示,数据分析流程主要包括业务调研、明确目标、数据准备、特征处理、模型训练与评估、输出结论等六个关键环节。


你真的懂数据分析吗?一文读懂数据分析的流程、基本方法和实践

▲图1 数据分析流程


数据分析能力并非一朝一夕养成的,需要长期扎根业务进行积累,需要长期根据数据分析流程一步一个脚印分析问题,培养自己对数据的敏感度,从而养成用数据分析、用数据说话的习惯。当你可以基于一些数据,根据自己的经验做出初步的判断和预测,你就基本拥有数据思维了。



02 数据分析基本方法


数据分析是以目标为导向的,通过目标实现选择数据分析的方法,常用的分析方法是统计分析,数据挖掘则需要使用机器学习构建模型。接下来介绍一些简单的数据分析方法。


1. 汇总统计


统计是指用单个数或者数的小集合捕获很大值集的特征,通过少量数值来了解大量数据中的主要信息,常见统计指标包括:


  • 分布度量:概率分布表、频率表、直方图

  • 频率度量:众数

  • 位置度量:均值、中位数

  • 散度度量:极差、方差、标准差

  • 多元比较:相关系数

  • 模型评估:准确率、召回率


汇总统计对一个弹性分布式数据集RDD进行概括统计,它通过调用Statistics的colStats方法实现。colStats方法可以返回RDD的最大值、最小值、均值、方差等,代码实现如下:


import   org.apache.spark.MLlib.linalg.Vector

以上是关于你真的懂数据分析吗?一文读懂数据分析的流程基本方法和实践的主要内容,如果未能解决你的问题,请参考以下文章

一文读懂机器学习分类全流程

一文带你读懂Python中的进程

能读懂这个,才算你真的会Fiddler一文了解系列

能读懂这个,才算你真的会Fiddler一文了解系列

能读懂这个,才算你真的会Fiddler一文了解系列

能读懂这个,才算你真的会Fiddler