数据挖掘概念

Posted lgx-fighting

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了数据挖掘概念相关的知识,希望对你有一定的参考价值。

数据挖掘所挖掘的结果是面向全部的数据,而机器学习则是预测测试样本的检测结果。

1.挖掘知识类型:1.特征化2.数据区分3.关联分析4.分类5.聚类、孤立点分析、演变分析

2.互信息值:是信息论中一个有用的信息度量。它可以看出是一个信息量里包含另一个随机变量的信息量

互信息值越大,就代表2个属性关联性越大
3.大数据的4V特征:Volume (大量) Variety (多样) Velocity(高速) Value (价值)

4.数据挖掘的主要功能包括概念描述、趋势分析、孤立点分析及、挖掘频繁模式、分类和预测 、聚类分析  、偏差分析等方面。

5.多站点处理:

1.单机多进程

2.集群分布式计算效果多机

6.频繁项集:指支持度大于等于最小支持度(min_sup)的集合

7.反演:是指能够模仿人类智能的计算机程序系统的人工智能系统,它具有学习和推理的功能。

8.频繁子图挖掘:是数据挖掘中一个非常广泛的应用。频繁子图挖掘是指从大量的图中挖掘出满足给定支持度的频繁子图,同时算法需要保证这些频繁图不能重复。频繁模式挖掘主要就是应用两种策略(这里不讨论基于垂直增长的方法)——AprioriGrowth

9.凸集的定义为:其几何意义表示为:如果集合C中任意2个元素连线上的点也在集合C中,则C为凸集。

10.基于规则的分类器:

工作原理:

互斥规则 如果规则集R中不存在两条规则被同一条记录触发,则称规则集R中的规则是互斥的。这个性质确保每条记录至多被R中的一条规则覆盖。

穷举规则 如果对属性值的任意组合,R中都存在一条规则加以覆盖,则称规则集R具有穷举覆盖。这个性质确保每一条记录都至少被R中的一条规则覆盖。

这两个性质共同作用,保证每一条记录被且仅被一条规则覆盖。如果规则集不是穷举的,那么必须添加一个默认规则 rd:() → yd来覆盖那些未被覆盖的记录。默认规则的前件为空,当所有其他规则失效时触发。yd是默认类,通常被指定为没有被现存规则覆盖的训练记录的多数类。

如果规则集不是互斥的,那么一条记录可能被多条规则覆盖,这些规则的预测可能会相互冲突,解决这个问题有如

下两种方法:

有序规则 规则集中的规则按照优先级降序排列,优先级的定义有多种方法(如基于准确率、覆盖率、总描述长度或规则产生的顺序等)。有序规则的规则集也称为决策表。当测试记录出现时,由覆盖记录的最高秩的规则对其进行分类,这就避免由多条分类规则来预测而产生的类冲突的问题。

无序规则 允许一条测试记录触发多条分类规则,把每条被触发规则的后件看作是对相应类的一次投票,然后计票确定测试记录的类标号。通常把记录指派到得票最多的类。

11.凝聚法分层聚类有一堆方法可以用来算两点(pair)之间的距离:欧式,欧式平方,manhattan等,还有一堆方法可以算类(cluster)与类之间的距离,什么single-linkage、complete-linkage、还有这个ward linkage。(即最短最长平均,离差平方和)

12.外推法(Extrapolation是根据过去和现在的发展趋势推断未来的一类方法的总称,用于科技、经济和社会发展的预测,是情报研究法体系的重要部分。是一种很好的近似计算方法.对于已求得的低精度近似值,只要作几次最简单的四则运算,便立刻得到高精度的近似值.更简单地说,它是一种把低精度近似值加工到高精度的近似值的一种方法,简称精加工.

关联规则的评价指标是支持度、置信度 

13.分类规则的挖掘方法通常有:决策树法、贝叶斯法、人工神经网络法、粗糙集法和遗传算法。

14.模型的具体化就是预测公式,公式可以产生与观察值有相似结构的输出,这就是预测值。

15.频繁闭项集比如人们总是一起买花生-啤酒-饼干三种东西(顺便举个例子),而不会只买其中的两种,那么如果找频繁项集,那么这三种的任意两个的组合以及三者组合都是频繁项集,比如啤酒-饼干;但是只有花生-啤酒-饼干三者的组合才是频繁闭项集。也就是说,不会存在其它的项总是和频繁闭项集一起出现,否则g(f(X))就会包含那些其它项了。

DMDB/DM的耦合方式:

  1. 不耦合:不利用DB进行DM
  2. 松散耦合:利用DB/DW(数据仓库)系统的某些功能
  3. 半紧密耦合
  4. 紧密耦合:集成为同一个系统(实现复杂)

16.数据清洗:文本清洗:噪声(停用词,标点符号,后缀变化等)

分类:描述性的和预测性的


以上是关于数据挖掘概念的主要内容,如果未能解决你的问题,请参考以下文章

数据仓库概念总结

数据库

文本挖掘的概念

文本挖掘的概念

influxDB概念

ER图和概念数据模型的关系