数据挖掘概念

Posted 2020-12-25 lgx-fighting

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了数据挖掘概念相关的知识，希望对你有一定的参考价值。

数据挖掘所挖掘的结果是面向全部的数据，而机器学习则是预测测试样本的检测结果。

1.挖掘知识类型：1.特征化2.数据区分3.关联分析4.分类5.聚类、孤立点分析、演变分析

2.互信息值：是信息论中一个有用的信息度量。它可以看出是一个信息量里包含另一个随机变量的信息量。

互信息值越大，就代表2个属性关联性越大。
3.大数据的4V特征：Volume (大量) Variety (多样) Velocity（高速） Value （价值）

4.数据挖掘的主要功能包括概念描述、趋势分析、孤立点分析及、挖掘频繁模式、分类和预测、聚类分析、偏差分析等方面。

5.多站点处理：

1.单机多进程

2.集群分布式计算效果（多机）

6.频繁项集：指支持度大于等于最小支持度(min_sup)的集合。

7.反演:是指能够模仿人类智能的计算机程序系统的人工智能系统，它具有学习和推理的功能。

8.频繁子图挖掘:是数据挖掘中一个非常广泛的应用。频繁子图挖掘是指从大量的图中挖掘出满足给定支持度的频繁子图，同时算法需要保证这些频繁图不能重复。频繁模式挖掘主要就是应用两种策略（这里不讨论基于垂直增长的方法）——Apriori和Growth。

9.凸集的定义为：其几何意义表示为：如果集合C中任意2个元素连线上的点也在集合C中，则C为凸集。

10.基于规则的分类器：

工作原理：

互斥规则 如果规则集R中不存在两条规则被同一条记录触发，则称规则集R中的规则是互斥的。这个性质确保每条记录至多被R中的一条规则覆盖。

穷举规则 如果对属性值的任意组合，R中都存在一条规则加以覆盖，则称规则集R具有穷举覆盖。这个性质确保每一条记录都至少被R中的一条规则覆盖。

这两个性质共同作用，保证每一条记录被且仅被一条规则覆盖。如果规则集不是穷举的，那么必须添加一个默认规则 rd:() → yd来覆盖那些未被覆盖的记录。默认规则的前件为空，当所有其他规则失效时触发。yd是默认类，通常被指定为没有被现存规则覆盖的训练记录的多数类。

如果规则集不是互斥的，那么一条记录可能被多条规则覆盖，这些规则的预测可能会相互冲突，解决这个问题有如

下两种方法：

有序规则 规则集中的规则按照优先级降序排列，优先级的定义有多种方法（如基于准确率、覆盖率、总描述长度或规则产生的顺序等）。有序规则的规则集也称为决策表。当测试记录出现时，由覆盖记录的最高秩的规则对其进行分类，这就避免由多条分类规则来预测而产生的类冲突的问题。

无序规则 允许一条测试记录触发多条分类规则，把每条被触发规则的后件看作是对相应类的一次投票，然后计票确定测试记录的类标号。通常把记录指派到得票最多的类。

11.凝聚法分层聚类：有一堆方法可以用来算两点（pair）之间的距离：欧式，欧式平方，manhattan等，还有一堆方法可以算类（cluster）与类之间的距离，什么single-linkage、complete-linkage、还有这个ward linkage。（即最短最长平均，离差平方和）

12.外推法（Extrapolation）：是根据过去和现在的发展趋势推断未来的一类方法的总称，用于科技、经济和社会发展的预测，是情报研究法体系的重要部分。是一种很好的近似计算方法．对于已求得的低精度近似值，只要作几次最简单的四则运算，便立刻得到高精度的近似值．更简单地说，它是一种把低精度近似值加工到高精度的近似值的一种方法，简称精加工．

关联规则的评价指标是支持度、置信度。

13.分类规则的挖掘方法通常有：决策树法、贝叶斯法、人工神经网络法、粗糙集法和遗传算法。

14.模型的具体化就是预测公式，公式可以产生与观察值有相似结构的输出，这就是预测值。

15.频繁闭项集：比如人们总是一起买“花生-啤酒-饼干”三种东西（顺便举个例子），而不会只买其中的两种，那么如果找频繁项集，那么这三种的任意两个的组合以及三者组合都是频繁项集，比如“啤酒-饼干”；但是只有“花生-啤酒-饼干”三者的组合才是频繁闭项集。也就是说，不会存在其它的项总是和频繁闭项集一起出现，否则g(f(X))就会包含那些其它项了。

DM与DB/DM的耦合方式：

不耦合：不利用DB进行DM
松散耦合：利用DB/DW（数据仓库）系统的某些功能
半紧密耦合
紧密耦合：集成为同一个系统（实现复杂）

16.数据清洗：文本清洗：噪声（停用词，标点符号，后缀变化等）

分类：描述性的和预测性的

以上是关于数据挖掘概念的主要内容，如果未能解决你的问题，请参考以下文章