第一章·导论
Posted windswater
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了第一章·导论相关的知识,希望对你有一定的参考价值。
数据挖掘主要有两大类:
- 预测任务:根据其他属性的值,预测特定属性的值
- 描述任务:导出概括数据中潜在联系的模式(相关,趋势,聚类,轨迹和异常)
4种主要的数据挖掘任务:
预测建模:
分类:用于预测离散的目标变量(如预测web与用户是否会在网上买书,预测花类型)。 回归:用于预测连续的目标变量(如预测未来股票价格)。
- 关联分析:用来发现描述数据中强关联特征的模式。(如找事物间联系,通过购物篮数据发现买尿布的顾客多半会买牛奶)。
- 聚类分析:发现紧密相关的观测值组群,每个族群中的每个观测值都尽可能相同(如对顾客进行分类)
- 异常检测:识别特征显著不同于其他数据的观测值。这样的观测值被称为异常值或者离群点,目标是发现真正异常点,而避免将正确对象标注为异常点(如检验欺诈,寻找疾病的不寻常模式)
例:信用卡欺诈检验:比如合法交易需要一系列步骤,而非法交易步骤相对简单,可以通过步骤比较,如果和合法交易步骤差距很大就有可能是非法交易。
以上是关于第一章·导论的主要内容,如果未能解决你的问题,请参考以下文章