数据分析45讲—数据挖掘基础(笔记)

Posted 2022-12-08 啊～小 l i

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了数据分析45讲—数据挖掘基础(笔记)相关的知识，希望对你有一定的参考价值。

数据挖掘

数据挖掘的基本流程

商业理解：数据挖掘不是目的，从商业角度理解项目的需求，在这个基础上在对数据挖掘的目标进行定义。
数据理解：尝试收集部分数据，然后对数据进行探索，包括数据的描述、数据质量验证。
数据准备：开始收集数据，并对数据进行清洗、数据集成等操作，完成数据挖掘前的准备操作。
模型建立：选择和应用各种数据挖掘模型，并进行优化以便得到更好的分类结果。
模型评估：对模型进行评价，并检查构建模型的每个步骤，确认模型是否有了预定的商业目标。
上线发布：模型的作用是从数据中找到金矿，也就是我们所说的“知识”，获得的知识需要转化为用户可以使用的方式，呈现可以是一份报告，也可以是一个比较复杂的过程。

数据挖掘的十大算法

分类算法：C4.5，朴素贝叶斯，SVM，KNN，Adaboost，CART
聚类算法：K-Means，EM
关联分析：Apriori
连接分析：PageRank

C4.5
C4.5是决策树算法，他的创造性在决策树构造过程中进行了剪枝，并且剋处理连续的属性。也能对不完整的数据进行处理
朴素贝叶斯（Naive Bayes）
朴素贝叶斯是基于概率论的原理，思想是这样的：对于给出的未知物体想要分类，就需要求解在这个位置物体出现的条件下各个类别出现的概率，那个最大就认为物体属于那个分类。
SVM
SVM的中文叫支持向量机，应为为Support Vector Machine，简称SVM，SVM在训练中建立一个超平面的分类模型。
KNN
KNN也叫K最近邻算法，英文是K-Nearest Neighbor。所谓K近邻，就是每个样本都可以用它最接近K个邻居来表示。如果一个样本，他的K个最接近的邻居都属于分类A，那么这个样本也属于分类A。
Adaboost
Adaboost在训练中建立一个联合分类的模型。Adaboost是一个构建分类器的提升算法，它可以让我们多个弱分类器组成一个强的分类器，所以Adaboost也是一个常用的分类算法。
CART
CART代表分类和回归数，英文为Classification and Regression Trees。像英文一样，它构建了两棵树：一颗是分类树，一棵是回归树。和C4.5一样，它是一个决策树学习方法。
Apriori
Apriori是一种挖掘关联规则（association rules）的算法，他通过挖掘频繁项（frequent item sets）来揭示物品之间的关联关系。频繁项集是指经常出现在一起的物品的集合，关联规则暗示着两种物品之间可能存在很强的关系。
K-Means
K-Means算法是一个聚类算法，假设每个类别里面都有一个中心点，即意见领袖，他就是这个类别的核心。现在我有一个新点要归类，这时候只要计算这个新点与K个中心点的距离，距离那个中心点近，就变成那个类别。
EM
EM算法也叫最大期望算法，是求最大似然估计的一种方法。原理：假设我们想要评估参数A和参数B，在开始状态下二者都是未知的，并且知道了A的信息就可以得到B的信息，反过来知道了B的估值也就得到A的。可以考虑首先赋予A某个初值，以此得到B的估值，然后从B的估值出发，重新估计A的取值，这一直持续到收敛为止。
PageRank
PageRank起源于论文影响的计算方式，如果一篇论文被引入的次数越多，就代表这篇论文的影响力越强。同样PageRank被Google创造性的硬要用到网页权重的计算中：当一个页面链出的页面越多，说明这个页面的‘参考’文献越多，当这个也买你被链入的频率越高，说明这个页面被引用的次数越高。

以上是关于数据分析45讲—数据挖掘基础(笔记)的主要内容，如果未能解决你的问题，请参考以下文章