数据分析流程简介
Posted yenpaul
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了数据分析流程简介相关的知识,希望对你有一定的参考价值。
一、背景介绍
数据分析一开始的目的是对行业累计的大量数据进行分析,提取有用的信息,创造更大的价值,而随着电脑的计算能力和数据处理能力的提升,数据分析发展快速成长,现在常常听到的人工智能其实就是数据分析的一种演化与应用。
二、步骤
数据分析步骤可简单分类为下
1、确认目标:首先必须要先确定的是,我们要做什么,比如我们想要知道哪些客户的购买力更强,或是哪个时间点商品的销售量是最好的,或是新推出的商品该如何去定价,数据分析是有目标的,当然也有些时候分析人员意外发现了目标以外的信息,但大部分的时候在商业上的数据分析都是有目的性的。在确认目标的同时需要决定要分析哪些数据,还有就是用那种分析方式、那种算法
2、获取数据:在确立了目标后,就必须要去获取数据,传统的商业数据分析大部分只要从自己公司的数据库调取数据就好,但现在越来越多的数据是需要利用爬虫软件去获取,甚至是要和别人购买,或是做问卷调查,比如我们想要分析新推出的车子在市场的反应好不好,除了调取销售量以外,还需要把客户的问卷调查做统计显示,甚至是到论坛上将所有车友的评价抓取下来,综合起来才可以得到一份全方位的分析报告。
3、数据预处理:一般获取到的数据,即使是自己公司数据库里的数据,也很容易夹杂着脏数据,这些数据会影响到分析结果,或是让代码无法顺利跑完,所以得到数据后必须先将数据处理,处理数据的方式很多,针对不同种类的数据、不同用途的数据,清理的方式不一样。例如我是要训练文件分类器的,我要先将文章里面常见的字和罕见的字去除掉,或是要分析地方人均拥有车辆的数目,要把过大的数和非整数的数目清除,才不会影响到分析结果
4、测试算法:数据分析的算法很多,有一句话是这样说的“没有最好的算法,只有最适合的算法”,每种分析方式都有他的优缺点,而且是随时在变化的,也许当下这个算法是最好的,但可能过一阵子就会发现有比他更好的算法出现,像是是人工智能的发展,其实就是一种算法的发展,有些算法可能在人脸识别他的准确率不够高,但是用他来分析销售量的变化是非常准的。
5、调整参数:一个合适的算法,还需要有良好的参数,调整参数需要有大量的数据提供,这些数据在机器学习里面称为“训练材料”,决定一个人工智能够不够聪明,分析结果够不够准确,往往就是这个参数,不同的算法有不同的调整方式,这个过程称为“优化”,优化的方式也有很多,这边不一一细说,只举个简单的例子,今天我们要从办公室到家里,有很多种的交通方式,假如直接打车回家可能是最快的,但也是最贵的,假如走路回家是最省钱的,但是最慢,所以在不花太多钱,速度又不慢的情况就会选择走路+打车+地铁的组合,这种过程就是优化的一种,透过不同的组合,计算出成本,找出成本最低的,就是常见的优化方式
这边要提的一点是,机器学习有一种说法叫“过度学习(overfitting)”,就是训练完的参数在训练材料里跑出的结果100分,结果在正式使用的时候发现准确率不高,这是因为参数过度的去迎合训练材料,所以通常会将训练材料拆分成两个部分,一个用来优化参数,一个用来校验,这种方法叫交叉训练
以上是关于数据分析流程简介的主要内容,如果未能解决你的问题,请参考以下文章