《大数据挖掘-系统方法与实例分析》学习笔记

Posted 2021-04-27 志扬工作室

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了《大数据挖掘-系统方法与实例分析》学习笔记相关的知识，希望对你有一定的参考价值。

Hints：本篇文章所编纂的资料均来自网络，特此感谢参与奉献的有关人员。

数据挖掘的目标：

数据挖掘目标都是为了产生商业决策，数据能从各个维度为管理层提供决策的依据，比如通过数据分析进行库存控制，价格调节，选择产品组合，设计产品套餐和产品推荐方式等，所有这些都是整体商业决策的一部分。

数据挖掘的基本概念：

大数据的概念：

海量数据，是指以不同形式存在于数据库、网络等媒介上蕴含丰富信息的规模巨大的数据。

大数据的特征：

Volume: 数据体量巨大

Variety：数据类型繁多

Value：价值密度低

Velocity：处理速度快

数据挖掘的概念：

数据挖掘（Data Mining），数据开采，数据挖掘，就是从大量的，不完全的，有噪声的，模糊的，随机的实际应用数据中，提取隐含在其中的，人们事先不知道的，但又是潜在有用的信息和知识的过程。

数据挖掘基于的数据库类型：

关系型数据库、面向对象数据库、事务数据库、演绎数据库、时态数据库、多媒体数据库、主动数据库、空间数据库、文本型、Internet信息库、数据仓库

数据挖掘的基本特点：

一处理的数据规模十分庞大

二查询一般是决策制定者提出的即时随机查询，往往不能形成精确的查询要求，需要靠系统本身寻找其可能感兴趣的东西。

三数据挖掘需要快速做出相应反应以随时提供决策支持。

四数据挖掘中，规则的发现基于统计规律。

五数据挖掘所发现的规则是动态的。

数据挖掘的过程类型：
SAS数据挖掘阶段（SEMMA）：

抽样、探索、处理、建模、评估

SPSS数据挖掘5A模型：

评估、访问、分析、行动、自动化

跨行业数据挖掘过程标准（CRISP-DM）：

业务理解、数据理解、数据准备、建模、评估、模型、部署

通用的数据挖掘过程（DPEMED）：

挖掘目标的定义、数据准备、数据探索、模型建立、模型评估、模型部署

数据挖掘的基本工具：

MATLAB、SAS、SPSS、WEKA、R、Python

数据挖掘的业务：

一是多倾听业务人员对业务的理解和看法

二是多运用机理分析的方法对业务和数据进行分析。

三是通过各种知识媒介，比如书籍、网络了解相关业务，提高自己的知识面和对业务理解的深度，从根本上提高内功，这样可以增大对业务理解的正确率，同时自然也增强了数据挖掘项目的有效性。

理性对待大数据：

一不要一味追求数据规模大

二避免技术驱动而要应用为先

三不能抛弃小数据方法

四要高度关注构建大数据平台的成本

数据挖掘的困难：

一数据复杂性引起的挑战

图文检索，主题发现，语义分析，情感分析等数据分析工作十分困难，其原因是大数据涉及复杂的类型，复杂的结构和复杂的模式，数据本身具有很高的复杂性。

二计算复杂性引起的挑战

大数据计算不能像处理小样本数据集那样做全局数据的统计分析和迭代计算，在分析大数据时，需要重新审视和研究它的可计算性，计算复杂性和求解算法。

三系统复杂性引起的挑战

大数据对计算机系统的运行效率和能耗提出了苛刻要求，大数据处理系统的效能评价与优化问题具有挑战性，不但要求理清大数据的计算复杂性与系统效率，能耗间的关系，还要综合度量系统的吞吐率，并行处理能力，作业计算精度，作业单位能耗等多种效能因素。

数据挖掘的完整过程

目标定义

了解需要解决的问题

了解需要分析的数据

了解需要预测的效果

数据准备

数据的选择：

选择数据就是从数据源中搜索所有与业务对象有关的内部和外部数据信息，并从中选择出适用于数据挖掘应用的数据。

数据的内容：

内部数据：现有的数据，如交易数据、调查数据、web日志

外部数据：购买的数据，如股票实时交易数据

数据的类型：交易数据、关系数据、人口统计数据

数据的属性：

属性是一个数据字段，表示数据对象的一个特征。属性、维度、特征和变量可以互换地使用。

数据的形式：

结构化数据：数据库

非结构化数据：视频、音频、图片、图像、文档、文本

半结构化数据：邮件、html、报表、资源库

数据的来源：

业务相关数据源

金融行业的数据源：

交易数据库：股票交易数据、股票大宗交易数据库、市场指数数据库、封闭式基金市场数据库、开放式基金数据库、期货市场数据库、权证市场数据库、高频交易数据库（市场表现：动量、波动性、活跃性）

上市公司类：财务报表数据库、财务报告审计数据库、财务指标分析数据库、分析师预测研究数据库、增发配股数据库、红利分配数据库、股东研究数据库、并购重组数据库（基本面信息：盈利能力、成长性、盈利质量、资产运行效率、股本扩张能力、偿债能力、现金情况）

经济与行业类：宏观经济数据库、区域经济数据库、行业统计数据库、进出口统计数据库、世界经济数据库、外汇市场数据库库、黄金市场数据库、市场波动研究数据库

数据的来源：雅虎、大智慧、Wind

数据抽样：

简单随机抽样：将调查总体全部观察编号，再用抽签法或随机数字表随机抽取部分观察组成样本。

系统抽样：机械抽样、等距抽样，先将总体的观察按某一顺序号分成n个部分，再从每一部分各抽取一定数量的观察组成样本。

整群抽样：总体分群，再随机抽取几个群组成样本，群内全部抽样。

分层抽样：先按对样本影响较大的某种特征，将总体分为若干类别，再从每一层内随机抽取一定数量的观察，合起来组成样本。

多阶段抽样：将抽样过程分阶段进行，每个阶段使用的抽样方法往往不同，即将各种抽样方法结合使用

数据质量分析：

缺失值、数据错误、度量标准错误、编码不一致、无效的元数据

数据质量分析方法：

值分析（总记录数、唯一值数、空值占比、非零占比、正数占比、负数占比）【唯一值分析、无效值分析、异常值分析】

统计分析（众数、分位数、中位数、偏度）

频次与直方图分析

统计分析的关键思考：

统计分析方法的核心就是分析数据的分布情况，查看数据与正态分布的接近程度。

对极值与均值的评判要借助一定的业务常识。

标准差反映变量数据的分散程度。

数据预处理

数据清洗：

填写缺失值、光滑噪声数据、识别或删除离群点，并解决不一致性等方式来清理数据。

缺失值处理：删除法、插补法（均值插补、回归插补、极大似然估计）、

噪声过滤：回归法、均值平滑法、离群点分析、小波去燥

数据集成：

把不同来源、格式、性质的数据在逻辑上或物理上有机地集中，以便更方便地进行数据挖掘工作。

数据集成方法：联邦数据库、中间件集成方法、数据仓库方法

数据归约：

数据集的简化

数据变换：

将数据从一种表示变为另一种表现形式的过程。

标准化：0-1标准化、Z-Score标准化、

离散化：把连续型数据切分成若干段

语义转换

数据标准化：消除变量间的量纲单位影响或变异大小因子的影响，使变量具有可比性。

数据探索

对已有的数据在尽量少的先验假定下进行探索，通过作图，制表，方程拟合，计算特征量等手段探索数据的结构和规律的一种数据分析方法。

数据探索的特点：

一在分析思路上让数据说话，不强调对数据的整理，从原始数据出发，深入探索数据的内在规律，而不是从某种假定出发，套用理论结论，拘泥于模型的假设。

二数据分析方法灵活，而不是拘泥于传统的统计方法，分析方法的选择完全从数据出发，灵活对待，灵活处理，什么方法可以达到探索和发现的目的就使用什么方法。

三数据分析的结果简单直观，更易于普及，更强调直观及数据可视化，更强调方法的多样性及灵活性。

数据统计

基本描述性统计

表示位置的统计量：算术平均值和中位数

表示数据散度的统计量：标准差、方差和极差

表示分布形状的统计量：偏度和峰度

分布描述性统计

数据可视化：直观感受数据

数据可视化

基本可视化方法

数据分布形状可视化

数据关联情况可视化

数据分组可视化

样本选择：

随机取样法：随机从样本母体中抽取数据

顺序取样法：按照一定的顺序，从样本母体抽取数据样本

监督取样法：对数据样品进行监督检查之后抽取样本

数据降维

主成分分析：将原来众多具有一定相关性的变量，重新组合为一组新的相互无关的综合变量来代替原来变量

关联规则挖掘

发现数据项集之间的关联关系和相关联系

关联规则算法

一找出事务数据库中所有大于等于用户指定的最小支持度的数据项集

二利用频繁项集生成所需要的关联规则，根据用户设定的最小置信度进行取舍，最后得到强关联规则

Aprior算法：

第一步通过迭代，检索出事务数据库中的所有频繁项集，即支持度不低于用户设定的阈值的项集；

第二步利用频繁项集构造出满足用户最小信任度的规则。

FP-Growth算法

1：先扫描一遍数据集，得到频繁项为1的项目集，定义最小支持度（项目出现最少次数），删除那些小于最小支持度的项目，然后将原始数据集中的条目按项目集中降序进行排列。

2：第二次扫描，创建项头表（从上往下降序），以及FP树。

3：对于每个项目（可以按照从下往上的顺序）找到其条件模式基（CPB，conditional patten base）,递归调用树结构，删除小于最小支持度的项。如果最终呈现单一路径的树结构，则直接列举所有组合；非单一路径的则继续调用树结构，直到形成单一路径即可。

数据回归方法

变量之间的关系可以分为两类：一类叫确定性关系，也叫函数关系，其特征：一个变量随着其他变量确定而确定。一类叫相关关系，变量之间的关系很难用一种精确的方法表示出来。

回归模型：

一元线性、一元非线性、多元线性、多元非线性、逐步回归、逻辑斯回归

逐步回归：

将变量一个一个引入，每引入一个自变量后，对已引入的变量要进行逐个检验，但原引入的变量由于后面变量的引入而变得不再显著时，要将其删除。

逻辑斯回归；

逻辑斯蒂回归是针对线性可分问题的一种易于实现而且性能优异的分类模型，是使用最为广泛的分类模型之一。假设某件事发生的概率为p，那么这件事不发生的概率为(1-p)，我们称p/(1-p)为这件事情发生的几率。取这件事情发生几率的对数，定义为logit(p)，所以logit(p)为

因为logit函数的输入取值范围为[0,1](因为p为某件事情发生的概率)，所以通过logit函数可以将输入区间为[0,1]转换到整个实数范围内的输出

分类方法

数据挖局中分类的目的是学会一个分类函数或分类模型（分类器），该模型能把数据库中的数据项映射到给定类别中的某一个。

K-邻近算法

在特征空间中，如果一个样本附近的k个最近(即特征空间中最邻近)样本的大多数属于某一个类别，则该样本也属于这个类别。

贝叶斯分类

朴素贝叶斯的思想基础是这样的：对于给出的待分类项，求解在此项出现的条件下各个类别出现的概率，哪个最大，就认为此待分类项属于哪个类别。

神经网络分类

神经网络的过程主要分为两个阶段，第一阶段是信号的前向传播，从输入层经过隐含层，最后到达输出层；第二阶段是误差的反向传播，从输出层到隐含层，最后到输入层，依次调节隐含层到输出层的权重和偏置，输入层到隐含层的权重和偏置。

逻辑斯分类

根据现有数据对分类边界线建立回归公式，以此进行分类。

判别式分类

给定训练样本，设法将样本投影到一条直线或者一张超平面上，使得同类样例点的投影尽可能的接近，异类样本点的投影尽可能远离；在对新的样本点进行分类时，将其投影到上述确定的这条直线上，再根据投影点的位置来确定新样本的类别

支持向量机

支持向量机的原理是，在两类的样本中，寻找到能最好划分类别的超平面。如果在平面中找不到，那就进入更多维度的空间，直至某个维度的空间能够划分出最合适的支持向量。两条支持向量中间的那个超平面就是机器能够利用的判断逻辑。

决策树分类

决策树分类时会提出很多不同的问题，判断样本的某个特征，然后综合所有的判断结果给出样本的类别。

LB算法

是一种基于概率统计和关联规则的分类算法。

集成学习

集成学习是一种机器学习范式，它试图通过连续调用单个的学习算法，获得不同的基学习器，然后根据规则组合这些学习器来解决同一个问题，可以显著地提高学习系统的泛化能力。

分类的评判

True positive

True negative

False positive

False negative

Accuracy 正确率

Error rate 错误率

Sensitivity 灵敏性

Specificity 特效性

Precision精度

False positive rate 错正率

Negative predictive value 负元正确率

False discovery rate 正元错误率

ROC曲线：是一种有效比较两个二元分类模型的可视化工具。

聚类方法：

将物理或抽象对象的集合分成由类似的对象组成的多个类或簇的过程称为聚类。由聚类所生成的簇是一组数据对象的集合，这些对象与同一个簇中的对象相似度高，与其他簇中的对象相似度低。相似度是根据描述对象的属性值来度量的，距离是经常采用的度量方式。

聚类方法：

划分聚类、层次聚类、基于密度的聚类，基于网格的聚类和基于模型的聚类。

K-means聚类：

1、首先确定一个k值，即我们希望将数据集经过聚类得到k个集合。

2、从数据集中随机选择k个数据点作为质心。

3、对数据集中每一个点，计算其与每一个质心的距离（如欧式距离），离哪个质心近，就划分到那个质心所属的集合。

4、把所有数据归好集合后，一共有k个集合。然后重新计算每个集合的质心。

5、如果新计算出来的质心和原来的质心之间的距离小于某一个设置的阈值（表示重新计算的质心的位置变化不大，趋于稳定，或者说收敛），我们可以认为聚类已经达到期望的结果，算法终止。

6、如果新质心和原质心距离变化很大，需要迭代3~5步骤。

层次聚类

凝聚的层次聚类：

自底向上。从假设每一个对象都是一个单独的簇开始，迭代合并，形成更大的簇

分裂的层次聚类：

自顶向下。开始令所有对象都在一个簇，迭代分裂，形成较小的簇

神经网络聚类：

神经网络在聚类方面表现的特征与分类相似，对数据适应性强，对噪声数据敏感。

模糊c-均值聚类

用隶属度确定每个数据点属于某个聚类的程度的一种聚类算法。

高斯混合聚类：

这种聚类方法得到的是每个样本点属于各个类的概率，而不是判定它完全属于一个类，所以有时也会被称为软聚类。

SOM智能聚类算法

SOM是一种基于神经网络观点的聚类和数据可视化技术。

预测方法

预测是指根据客观事物的发展趋势和变化规律对待特定对象的未来发展趋势或状态做出科学的推断与判断，即预测就是根据过去和现在估计未来。

预测的基本要素包括：预测者、预测对象、信息、预测方法和技术以及预测结果。

预测的基本原理：

系统性原理：预测必须以系统的观点为指导

连贯性原理：指事物的发展按一定规律进行的，在其发展过程中，这种规律贯彻始终，不应受到破坏，它的未来发展与其过去和现在的发展没有本质的不同。

类推原理：类推原理是指通过寻找并分析类似事物相似规律，根据已知的某事物的发展变化特征，推断具有近似特性的预测对象的未来状态。

相关性原理：相关性原理是指所研究预测对象与其相关事物间的相关性，利用相关事物来推断预测对象的未来状况。

概率推断原理：指当被推断结果能以较大的概率出现时，则认为该结果成立。

预测的准确度评价及影响因素

预测的精度是指预测模型拟合的好坏程度，即由预测模型所产生的模拟值与历史实际值拟合程度的优劣。

度量模型的精度：均方误差MSE、绝对平均误差MAE、相对平均误差MAPE

影响预测准确度的因素：

一影响预测对象的偶然因素

二资料的限制

三方法不恰当

四预测者的分判断能力

常用预测方法：

定性预测方法：专家会议法(Delphi法)、主观概率法、领先指标法、

定量预测方法：

时间序列分析: 移动平均、指数平滑、Box-Jenkins法

因果关系分析：回归方法、计量经济模型、神经网络预测法、灰色预测、马尔科夫预测

灰色预测：

如果某一系统的全部信息已知为白色系统，全部信息未知为黑箱系统，部分信息已知，部分信息未知，那么这一系统就是灰色系统。

马尔科夫预测：

马尔可夫预测法主要用于市场占有率的预测和销售期望利润的预测。就是一种预测事件发生的概率的方法。马尔科夫预测讲述了有关随机变量、随机函数与随机过程。

诊断方法

离群点诊断的作用：

基于离群点检测的网络入侵检测

基于离群点检测的信用卡欺诈检测

基于离群点检测的异常客户行为分析

离群点检测的方法

基于距离的离群点挖掘

基于密度的离群点挖掘

基于聚类的离群点挖掘

基于关联的离群点挖掘

基于粗糙集的离群点挖掘

基于人工神经网络的离群点挖掘

时间序列方法

时间序列的构成因素：

趋势性Trend

周期性Cyclic

季节性变化 seasonalvariation

不规则变化 irregularmovement

时间序列的分类

1 按研究对象的多少，一元时间序列，多元时间序列

2 按时间的连续性，离散时间序列，连续时间序列

3 按序列的统计特性分，平稳的时间序列，非平稳时间序列

4 按序列的分布规律，高斯型序列，非高斯型时间序列

时间序列分析方法

1 确定性分析：暂时过滤掉随机性因素（季节因素、趋势变动）进行确定性分析的方法

2 随机性时序分析：通过分析不同时刻变量的相关关系，揭示其相关结构，利用这种相关结构建立自回归、滑动平均、自回归滑动平均混合模型来对时间序列进行预测。

平稳时间序列分析方法：

移动平均法、指数平滑法、季节指数预测法、时间序列模型（ARMA模型、ARCH模型、GARCH模型）

智能优化方法

传统的智能优化算法包括进化算法、粒子群算法、禁忌搜索、分散搜索、模拟退火、人工模拟系统、蚁群算法、遗传算法、人工神经网络技术

进化算法：

给定一组初始解；评价当前这组解的性能；从当前这组解中选择一定数量的解作为迭代后的解的基础；再对其进行操作，得到迭代后的解；若这些解满足要求则停止，否则将这些迭代得到的解作为当前解重新操作。

粒子群算法

1、初始化粒子群；

2、评价粒子，即计算适应值；

3、寻找个体极值；

4、寻找全局最优解；

5、修改粒子的速度和位置。

禁忌搜索

禁忌搜索算法（TabuSearch或Taboo Search，简称TS算法）是一种全局性邻域搜索算法，模拟人类具有记忆功能的寻优特征。它通过局部邻域搜索机制和相应的禁忌准则来避免迂回搜索，并通过破禁水平来释放一些被禁忌的优良状态，进而保证多样化的有效探索，以最终实现全局优化。

（1）给定算法参数，随机产生初始解x，置禁忌表为空。

　　（2）判断算法终止条件是否满足？若是，则结束算法并输出优化结果；否则，继续以下步骤。

　　（3）利用当前解工的邻域函数产生其所有（或若干）邻域解，并从中确定若干候选解。

　　（4）对候选解判断藐视准则是否满足？若成立，则用满足藐视准则的最佳状态y替代x成为新的当前解，即x=y，并用与y对应的禁忌对象替换最早进入禁忌表的禁忌对象，同时用y替换“best so far”状态，然后转步骤6；否则，继续以下步骤。

　　（5）判断候选解对应的各对象的禁忌属性，选择候选解集中非禁忌对象对应的最佳状态为新的当前解，同时用与之对应的禁忌对象替换最早进入禁忌表的禁忌对象元素。

　　（6）转步骤（2）。

分散搜索算法

分散搜索采用基于种群的全局搜索策略,较少地利用搜索过程的随机性,注重于采用一系列系统性方法来构建新解,提高搜索的集中性和多样性。

模拟退火算法

模拟退火算法从某一较高初温出发，伴随温度参数的不断下降,结合概率突跳特性在解空间中随机寻找目标函数的全局最优解，即在局部最优解能概率性地跳出并最终趋于全局最优。

蚁群算法

将蚁群算法应用于解决优化问题的基本思路为：用蚂蚁的行走路径表示待优化问题的可行解，整个蚂蚁群体的所有路径构成待优化问题的解空间。路径较短的蚂蚁释放的信息素量较多，随着时间的推进，较短的路径上累积的信息素浓度逐渐增高，选择该路径的蚂蚁个数也愈来愈多。最终，整个蚂蚁会在正反馈的作用下集中到最佳的路径上，此时对应的便是待优化问题的最优解。

遗传算法

遗传算法也是计算机科学人工智能领域中用于解决最优化的一种搜索启发式算法，是进化算法的一种。这种启发式通常用来生成有用的解决方案来优化和搜索问题。进化算法最初是借鉴了进化生物学中的一些现象而发展起来的，这些现象包括遗传、突变、自然选择以及杂交等。遗传算法在适应度函数选择不当的情况下有可能收敛于局部最优，而不能达到全局最优。遗传算法的基本运算过程如下：

a)初始化：设置进化代数计数器t=0，设置最大进化代数T，随机生成M个个体作为初始群体P(0)。

b)个体评价：计算群体P(t)中各个个体的适应度。

c)选择运算：将选择算子作用于群体。选择的目的是把优化的个体直接遗传到下一代或通过配对交叉产生新的个体再遗传到下一代。选择操作是建立在群体中个体的适应度评估基础上的。

d)交叉运算：将交叉算子作用于群体。遗传算法中起核心作用的就是交叉算子。

e)变异运算：将变异算子作用于群体。即是对群体中的个体串的某些基因座上的基因值作变动。群体P(t)经过选择、交叉、变异运算之后得到下一代群体P(t+1)。

f)终止条件判断：若t=T,则以进化过程中所得到的具有最大适应度个体作为最优解输出，终止计算。

人工模拟系统
人工神经网络技术
层次分析法AHP

将半定性、半定量问题转化为定量问题的有效途径，将各种因素层次化，并逐层比较多种关联因素，为分析和预测事物的发展提供可比较定量依据，特别使用那些难于完全用定量进行分析的复杂问题。

模型验证：

简单验证：
交叉验证：

Hold-Out Method, K-fold cross validation, level-one-out cross validation,

N-维交叉验证：

数据挖掘的应用案例：

行业关联选股：

从数据中寻找具有联动关联的行业，但某个行业出现涨势之后，而其关联行业还没有开始涨，则从其关联行业中选择典型个股买入。

多因子选股模型：

用过去的股票的收益率对多因子进行回归，得到一个回归方程，然后再把最新的因子值带入回归方程得到一个对未来股票收益的预判，然后再以此为依据进行选股。

分类选股模型：

将股票分为三类：涨，持平，跌，选择有涨潜力的股票，避免选择有跌风险的股票。

基于时间序列的股票预测：

采用ARMA模型对股票走势进行预测。

个人信用评分

个人信用评分体系是根据收集到客户过去的和现在信用相关资料来预测客户未来的还款能力或还款意愿的一种模型。

个人信用评分的相关指标：个人基本情况、个人工作情况、个人经济情况、与金融机构关系情况以及历史信用记录

企业信用评级：

由专门从事信用评估的独立的部门或者机构，运用科学指标体系、定量分析和定性分析相结合的方法，通过对企业、债券发行者、金融机构等市场参与主体的信用记录、企业素质、经营水平、外部环境、财务状况、发展前景以及可能出现的各种风险等进行客观、科学、公正的分析研究之后，就其信用能力所做的综合评价，并用特定的等级符号标定其信用等级的一种制度。

量化选股：

利用计算机程序以及一些数量化指标进行短线交易，运用于股票交易、固定收益产品、外汇、期货、期权。

交易模型的测评指标：

胜率、盈亏比、连续亏损次数和最大资金回撤比例、最终收益率

量化选股分类：趋势交易、套利交易、算法交易和高频交易

故障诊断：

故障诊断，故障分析，是为了确定故障原因以及如何防止其再次发生而手机和分析数据的过程。

购物篮分析：

尿布与啤酒，“啤酒”和“尿布”两个看上去没有关系的商品摆放在一起进行销售、并获得了很好的销售收益，这种现象就是卖场中商品之间的关联性，研究“啤酒与尿布”关联的方法就是购物篮分析，购物篮分析是沃尔玛秘而不宣的独门武器，购物篮分析可以帮助我们在门店的销售过程中找到具有关联关系的商品，并以此获得销售收益的增长！

参考资料：

https://blog.csdn.net/baixiangxue/article/details/80335469

https://www.jianshu.com/p/6ab6f53874f7

https://blog.csdn.net/ytfhjhv/article/details/83695222

https://www.jianshu.com/p/4f032dccdcef

https://blog.csdn.net/hnzhangjq/article/details/82711771

https://wiki.mbalib.com/wiki/%E7%A6%81%E5%BF%8C%E6%90%9C%E7%B4%A2%E7%AE%97%E6%B3%95

https://baike.baidu.com/item/%E5%88%86%E6%95%A3%E6%90%9C%E7%B4%A2%E7%AE%97%E6%B3%95/18853489?fr=aladdin

https://baike.baidu.com/item/%E6%A8%A1%E6%8B%9F%E9%80%80%E7%81%AB%E7%AE%97%E6%B3%95/355508?fr=aladdin

https://baike.baidu.com/item/%E8%9A%81%E7%BE%A4%E7%AE%97%E6%B3%95/9646604?fr=aladdin

https://baike.baidu.com/item/%E9%81%97%E4%BC%A0%E7%AE%97%E6%B3%95/838140?fr=aladdin

https://blog.csdn.net/zhaojc1995/article/details/81592567

https://blog.csdn.net/sinat_29957455/article/details/78944939

https://blog.csdn.net/cindy407/article/details/95242734

以上是关于《大数据挖掘-系统方法与实例分析》学习笔记的主要内容，如果未能解决你的问题，请参考以下文章

大数据学习笔记：聚类分析

[学习笔记]黑马程序员-Hadoop入门视频教程

新如何学习大数据技术？大数据怎么入门？怎么做大数据分析？

大数据处理学习笔记1.7 Scala类与对象

阅读笔记联邦学习实战——构建公平的大数据交易市场

《大数据挖掘-系统方法与实例分析》学习笔记

数据挖掘的基本概念：

大数据的概念：

大数据的特征：

数据挖掘的概念：

数据挖掘基于的数据库类型：

数据挖掘的基本特点：

数据挖掘的过程类型：

数据挖掘的基本工具：

数据挖掘的业务：

理性对待大数据：

数据挖掘的困难：

数据挖掘的完整过程

目标定义

数据准备

数据的选择：

数据的内容：

数据的属性：

数据的形式：

数据的来源：

金融行业的数据源：

数据抽样：

数据质量分析：

数据质量分析方法：

数据预处理

数据清洗：

数据集成：

数据归约：

数据变换：

数据探索

数据探索的特点：

数据统计

数据可视化

样本选择：

数据降维

关联规则挖掘

关联规则算法

Aprior算法：

数据回归方法

回归模型：

逐步回归：

逻辑斯回归；

分类方法

K-邻近算法

贝叶斯分类

神经网络分类

逻辑斯分类

支持向量机

决策树分类

LB算法

分类的评判

聚类方法：

聚类方法：

K-means聚类：

层次聚类

神经网络聚类：

模糊c-均值聚类

高斯混合聚类：

SOM智能聚类算法

预测方法

预测的基本原理：

预测的准确度评价及影响因素

常用预测方法：

灰色预测：

马尔科夫预测：

诊断方法

离群点诊断的作用：

离群点检测的方法

时间序列方法

时间序列的构成因素：

时间序列的分类

时间序列分析方法

平稳时间序列分析方法：

智能优化方法

进化算法：

粒子群算法

禁忌搜索

分散搜索算法

模拟退火算法

蚁群算法