数据分析好帮手:那就是数据挖掘!
Posted 爆炸吧知识
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了数据分析好帮手:那就是数据挖掘!相关的知识,希望对你有一定的参考价值。
全世界只有3.14 % 的人关注了
青少年数学之旅
在数据分析中模型是非常有用和有效的工具和数据分析应用的场景,在建立模型的过程中,数据挖掘很多时候能够起到非常显著的作用。伴随着计算机科学的发展,模型也越来越向智能化和自动化发展。了解数据挖掘背后的思想,可以有助于建立更具稳定性的模型和更高效的模型。
01 数据挖掘前世今生
数据模型很多时候就是一个类似Y=f(X)的函数,这个函数贯穿了模型从构思到建立,从调试再到最后落地应用的全部过程。
Y=f(X)建立之路
伴随着统计方法和技术的发展,在模型的建立过程中也引入了统计分析的过程。随着计算机科学的进一步发展,建模的过程也被交给了机器来完成,因此数据挖掘也被用到了模型的建立中。
数据挖掘是从大量数据中,挖掘出有价值信息的过程。数据挖掘是通过对数据不断的学习从中发掘规律和信息的过程,其应用范围广泛,除了建模,在人工智能领域也有使用。回到模型中,从经验判断到数据挖掘建立模型的计算特征发生了极大的改变。
计算特征的发展
首先数据的维度开始从少变多,最初只有几个维度到现在有上百个维度。数据的体量即记录的条数也从少量到海量,从过去了百条规模到了现在亿条规模。伴随着数据获取的难度下降,数据的维度和记录数量会越来越多。
在这种情况下数据的处理过程也越来越复杂,从过去简单的几次加减计算得到结果,到了现在必须要经历上亿次的复杂运算。同时伴随着计算性能的提升,对于从数据中提取信息而言也从渐渐深入,过去只能发现一眼看出的浅表信息,如今可以不断去挖掘隐含的知识。
02 数据挖掘的基本思想
数据挖掘的实质是通过计算机的计算能力在一堆数据中发掘出规律并加以利用的过程。因此对数据挖掘而言,就需要经历规则学习、规则验证和规则使用的过程。
规则学习又称为模型训练,在这个步骤中有一个数据集将作为训练集。按照相关的算法和输出规则的要求,从训练集中筛选出需要使用的变量,并根据这些变量生成相关的规则。有的时候是将过去已经发生的数据作为训练集,在对比已知的结果和输入的变量的过程中,以尽可能降低输出误差的原则拟合出相应的模型。
当产生了规则后就需要验证规则的效果和准确度,这个时候就需要引入验证集。验证集和训练集具有相同的格式,既包含了已知的结果也包含了输入的变量。
与训练集不同的是对验证集的应用是直接将规则应用于验证集中,去产生出相应的输出结果,并用输出的结果去对比实际情况,以来确定模型是否有效。如果有效的话就可以在实际的场景中应用。如果效果不理想则回头去调整模型。
测试集是将模型在实际的场景中使用是直接应用模型的步骤。在测试集中,只包含输入变量却没有像其他两个数据一样存在的已知结果。正因为结果未知,就需要用测试集通过模型去产生的输出的结果。这个输出结果将在为结果产生以后进行验证,只要有效模型就会一直使用下去。
03 数据挖掘的流程
数据挖掘与数据分析的流程相似,都是从数据中发现知识的过程,只不过由于数据体量和维度的原因数据挖掘在计算上最大。
对数据挖掘而言首先是进行数据获取,数据获取的来源很多,有系统中自行记录的数据,对这种数据只要导出即可,同时也有外来数据,比如网页爬取得数据,或者是购买的数据,这些数据需要按照分析系统的需求进行导入。
在完成了数据获取步骤后就需要进行数据处理,数据处理即是处理数据中的缺失值,错误值以及异常值,按照相关的规则进行修正或者删除,同时在数据处理中也需要根据变脸之间的关系,产生出一系列的衍生变量。总而言之,数据处理的结果是可以进行分析的数据,所有数据在进行分析以前都需要完成数据处理的步骤。
如果数据在分布上存在较极端的情况就需要经历数据平衡的步骤。例如对于要输出的原始变量而言,存在及其少量的一种类别以及及其大量的另一种类别,就像有大量的0和少量的1一样,在这种情况下就需要对数据进行平衡,通过复制1或者削减0的形式生成平衡数据集。
当完成数据平衡后,将会把数据处理的结果分出一部分作为验证集使用,如果数据平衡性好那么剩下的部分作为训练集,如果平衡性不好那么平衡数据集就会作为训练集使用。当有了训练集后就按照相关的算法对训练集进行学习,从而产生出相关的规则和参数。
当有了规则以后,就将产生的规则用在验证集中,通过对比已知结果和输出结果之间的误差情况来判断是否通过。如果通过则在后面再测试集中使用,如果未通过就通过数据平衡、参数调整,以及变量选择等手段重新调整规则,并再次进行验证直到通过验证。
对于验证集验证的步骤而言,在无监督学习中没有这个步骤,当缠上规则后就直接用于测试集。
数据挖掘是一个周而复始的过程,在生成规则的过程中不断地对模型进行调整,从而提升精度。同时也将多批次的历史数据引入到数据挖掘的过程中,进行多次的验证从而在时间上保证模型的稳定性。
《Spss实战》系列课程介绍
基础篇(共47学时)
(课程大纲)
《问卷调查与Spss运用》(初级篇)(¥299)
SPPS在日常生活中的应用(免费试学)
第一章 问卷量表设计原则与技巧(免费试学)
第二章 统计学基础(免费试学)
第三章 基于Epidata的数据快速录入
第四章 基于移动互联网的问卷发布及数据录入
第五章 SPSS数据库构建
第六章 项目分析
第七章 问卷量表效度分析
第八章 问卷量表信度分析
第九章 数据管理
第十章 问卷描述性分析
即可报名学习
进阶篇(共47学时)
(课程大纲)
《问卷调查与Spss运用》(中级篇)(¥399)
第一章 差异性分析之t检验(计量资料)(免费试学)
第二章 差异性分析之F检验(多组计量资料)
第三章 差异性分析之卡方检验(单选题)
第四章 差异性分析之非参数检验
第五章 关系性分析
第六章 多选题分析
第七章 基于Process的中介效应与调节效应分析
第八章 轮廓分析
即可报名学习
《Python数据挖掘实战》课程介绍
课程大纲
(共59学时,¥298)
第一章:泰坦尼克号获救预测(免费试学)
第二章:用户画像
第三章:Kaggle数据科学
第四章:Xgboost实战
第五章:京东购买预测
第六章:房价预测
即可报名学习
授课老师
作为主讲人,唐老师、武松老师将多年的数据分析、数据挖掘使用技巧分享给大家。因此课程传授的不仅是知识,还有思维和方法。
特别提醒
注意事项
①Python交流群:114109947
②课程优惠:
新学员
老学员(报名过我们任一付费课程的学员)
评价已报名的课程,并截图发给助教,即可领取60元优惠券
③课程有疑问或成功报名均请联系助教☟
小七微信:zwjlee001
大鱼QQ:210187565
本文部分来源:简书,转自中国统计网,内容有删减,如有侵权请联系删除。
- 更多实用课程推荐 -
点击下方“阅读原文”,查看课程
以上是关于数据分析好帮手:那就是数据挖掘!的主要内容,如果未能解决你的问题,请参考以下文章