icu诊室当我们谈论数据挖掘时,究竟是在说什么?

Posted 数之联大数据

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了icu诊室当我们谈论数据挖掘时,究竟是在说什么?相关的知识,希望对你有一定的参考价值。

数据挖掘(Data Mining,简称DM),顾名思义,就是指从大量的数据中挖掘出未知的且有价值的信息和知识的过程。
 
相较于更注重技术和算法的机器学习而言,数据挖掘更偏向于“数据”而非算法,且包括了很多数据的前期处理工作,爬取数据,数据清洗,数据整合,数据有效性检测,数据可视化(画图)等等,因此是个比较宽泛的概念。

【icu诊室】当我们谈论数据挖掘时,究竟是在说什么?

商业上的诸多问题,例如:


如何降低用户流失率?
某个用户是否会响应本次营销活动?
如何细分现有目标市场?
如何制定交叉销售策略以提升销售额?
如何预测未来销量?
 

从数据挖掘的角度看,都可以转换为四大问题:分类、聚类、关联、预测



1
数据挖掘四大基本问题
 
分类:分类问题带有预测性,简单来说就是判断一个未知数据属于哪种类别。
【icu诊室】当我们谈论数据挖掘时,究竟是在说什么?
▲分类算法示意

聚类:根据选定的指标,对数据进行划分,算法根据“物以类聚”的原则,判断各条数据之间的相似性,相似的就将其归为一类。


聚类问题容易与分类问题混淆,主要是语言表达的原因,但两者之间有着本质的区别。分类问题是预测一个未知类别的用户属于哪个类别(相当于做单选题),而聚类问题是根据选定的指标,对一群用户进行划分(相当于做开放式的论述题),它不属于预测问题。


【icu诊室】当我们谈论数据挖掘时,究竟是在说什么?
▲聚类算法示意

关联:基于数据识别其中潜在的相关性。

预测:采用统计学技术,例如回归、时间序列等研究目标变量与影响它的若干相关变量之间的关系。



2
关联中蕴藏价值
 
关联中蕴藏着巨大的价值,最典型的便是“啤酒-尿布”的故事,我们姑且不论该故事是否是编造而来,但隐藏在啤酒和尿布之间这种表面上并没有任何痕迹的关联,如果不通过数据挖掘技术,仅仅靠拍脑袋,是难以想出来的。
 
通过关联规则的挖掘,我们便可以找到数据间的相关性,从而指导实际工作。 同时,通过寻找关联关系,我们又能发现其间的因果溯源。

【icu诊室】当我们谈论数据挖掘时,究竟是在说什么?



3
预测指导决策
 
预测,是大数据算法应用中最核心的问题,绝大部分我们可以想象到的应用问题,例如:个性化推荐、精分营销、员工绩效管理、银行信用卡征信、小微企业贷款、生产线优化控制、精准广告投放和营业网点选择……等等,其本质都是预测问题。
 
生活中, 我们比较常见的大数据预测方法有 点击购买类的预测 (预测一个消费者有多大可能性会点击某个广告,购买某种商品)、 基于移动轨迹的位置预测 (通过“签到-分享”类应用积累消费者数据从而发现商业价值)、 链路预测 (社交网络上的朋友推荐)等。
【icu诊室】当我们谈论数据挖掘时,究竟是在说什么?

当确定分析问题和指标以后,通过对数据进行清洗、特征提取、模型训练、模型融合,就可以利用数据挖掘工具对数据进行较好的挖掘和分析。



4
国内外主流数据挖掘工具

当前,国内外主流的数据挖掘工具有RapidMiner、Weka、SAS、R、IBM SPSS Modeler、 iCloudUnionMicrosoft ML Studio等。

其中,iCloudUnion作为国内率先出现的数据挖掘产品,以其轻便的B/S架构、特定领域的新算法响应、安全的多用户协作共享空间等众多优点逐步走进大众视野。



—待续—

以上是关于icu诊室当我们谈论数据挖掘时,究竟是在说什么?的主要内容,如果未能解决你的问题,请参考以下文章

究竟啥是“样本”?

当谈论设备指纹时,我们到底在说什么?(转)

当我在谈论运维的时候,我究竟在说什么

当我们谈论STEAM教育时,我们在谈论什么?

当我们谈论跳槽时在谈论什么

为什么说“自动驾驶+物流”是被忽视的市场?