数据挖掘概念
Posted lgx-fighting
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了数据挖掘概念相关的知识,希望对你有一定的参考价值。
数据挖掘所挖掘的结果是面向全部的数据,而机器学习则是预测测试样本的检测结果。
1.挖掘知识类型:1.特征化2.数据区分3.关联分析4.分类5.聚类、孤立点分析、演变分析
2.互信息值:是信息论中一个有用的信息度量。它可以看出是一个信息量里包含另一个随机变量的信息量。
互信息值越大,就代表2个属性关联性越大。
3.大数据的4V特征:Volume (大量) Variety (多样) Velocity(高速) Value (价值)
4.数据挖掘的主要功能包括概念描述、趋势分析、孤立点分析及、挖掘频繁模式、分类和预测 、聚类分析 、偏差分析等方面。
5.多站点处理:
1.单机多进程
2.集群分布式计算效果(多机)
6.频繁项集:指支持度大于等于最小支持度(min_sup)的集合。
7.反演:是指能够模仿人类智能的计算机程序系统的人工智能系统,它具有学习和推理的功能。
8.频繁子图挖掘:是数据挖掘中一个非常广泛的应用。频繁子图挖掘是指从大量的图中挖掘出满足给定支持度的频繁子图,同时算法需要保证这些频繁图不能重复。频繁模式挖掘主要就是应用两种策略(这里不讨论基于垂直增长的方法)——Apriori和Growth。
9.凸集的定义为:其几何意义表示为:如果集合C中任意2个元素连线上的点也在集合C中,则C为凸集。
10.基于规则的分类器:
工作原理:
互斥规则 如果规则集R中不存在两条规则被同一条记录触发,则称规则集R中的规则是互斥的。这个性质确保每条记录至多被R中的一条规则覆盖。
穷举规则 如果对属性值的任意组合,R中都存在一条规则加以覆盖,则称规则集R具有穷举覆盖。这个性质确保每一条记录都至少被R中的一条规则覆盖。
这两个性质共同作用,保证每一条记录被且仅被一条规则覆盖。如果规则集不是穷举的,那么必须添加一个默认规则 rd:() → yd来覆盖那些未被覆盖的记录。默认规则的前件为空,当所有其他规则失效时触发。yd是默认类,通常被指定为没有被现存规则覆盖的训练记录的多数类。
如果规则集不是互斥的,那么一条记录可能被多条规则覆盖,这些规则的预测可能会相互冲突,解决这个问题有如
下两种方法:
有序规则 规则集中的规则按照优先级降序排列,优先级的定义有多种方法(如基于准确率、覆盖率、总描述长度或规则产生的顺序等)。有序规则的规则集也称为决策表。当测试记录出现时,由覆盖记录的最高秩的规则对其进行分类,这就避免由多条分类规则来预测而产生的类冲突的问题。
无序规则 允许一条测试记录触发多条分类规则,把每条被触发规则的后件看作是对相应类的一次投票,然后计票确定测试记录的类标号。通常把记录指派到得票最多的类。
11.凝聚法分层聚类:有一堆方法可以用来算两点(pair)之间的距离:欧式,欧式平方,manhattan等,还有一堆方法可以算类(cluster)与类之间的距离,什么single-linkage、complete-linkage、还有这个ward linkage。(即最短最长平均,离差平方和)
12.外推法(Extrapolation):是根据过去和现在的发展趋势推断未来的一类方法的总称,用于科技、经济和社会发展的预测,是情报研究法体系的重要部分。是一种很好的近似计算方法.对于已求得的低精度近似值,只要作几次最简单的四则运算,便立刻得到高精度的近似值.更简单地说,它是一种把低精度近似值加工到高精度的近似值的一种方法,简称精加工.
关联规则的评价指标是支持度、置信度 。
13.分类规则的挖掘方法通常有:决策树法、贝叶斯法、人工神经网络法、粗糙集法和遗传算法。
14.模型的具体化就是预测公式,公式可以产生与观察值有相似结构的输出,这就是预测值。
15.频繁闭项集:比如人们总是一起买“花生-啤酒-饼干”三种东西(顺便举个例子),而不会只买其中的两种,那么如果找频繁项集,那么这三种的任意两个的组合以及三者组合都是频繁项集,比如“啤酒-饼干”;但是只有“花生-啤酒-饼干”三者的组合才是频繁闭项集。也就是说,不会存在其它的项总是和频繁闭项集一起出现,否则g(f(X))就会包含那些其它项了。
DM与DB/DM的耦合方式:
- 不耦合:不利用DB进行DM
- 松散耦合:利用DB/DW(数据仓库)系统的某些功能
- 半紧密耦合
- 紧密耦合:集成为同一个系统(实现复杂)
16.数据清洗:文本清洗:噪声(停用词,标点符号,后缀变化等)
分类:描述性的和预测性的
以上是关于数据挖掘概念的主要内容,如果未能解决你的问题,请参考以下文章