机器学习之集成学习

Posted 2020-10-05

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了机器学习之集成学习相关的知识，希望对你有一定的参考价值。

1. 概念梳理：

AdaBoost：

运行过程：训练数据中的每一个样本，并赋一个权重，这些权重值构成向量D，已开始这些权重值一样。

第一次训练完，得到一个弱分类器，计算该分类器的错误率，然后调整每个样本的权重值，对同一个训练数据进行第二次训练得到第二个分类器。（第一次分对的样本权重减小，分错的权重提高。）并且AdaBoost为每个分类器都分配了一个权重值alpha。

这样，样本权重D和alpha不断训练和调整，知道错误率为0或者分类器的数目达到要求为止。

bagging：从原始数据集选择S次后得到S个新的数据集，创建好S个数据集以后，应用某个学习算法分别作用于每个数据集得到了S个分类器。结果产生于：简单投票

boosting：集中关注在已有分类器中错分的数据来获得新的分类器，过程详看Adaboost。分类结果产生于：基于所有分类器的加权求和结果得到的。

集成学习：集合多个基学习器（弱学习器）。（自助采样方法）

集成学习的方法大致可以分为两类：Boosting为代表的个体学习器之间存在强依赖关系、必须串行生成的序列化方法；再就是以Bagging和随机森林为代表的个体学习器间不存在强依赖关系，可以同时生成的并行化方法。

2. 分类性能：

正确率：分类正确的正例占在预测结果中的为正例（预测中有一部分是真实正例和伪正例）的比例

召回率：给出的是分类正确的正例占所有真实正例（真实的标签正例）的比例

ROC曲线：度量分类中的非均衡型的工具。假阳率（x）和真阳率（y）。ROC曲线中有两条线：实线，虚线：随机猜测的结果曲线

AUC：曲线下面积：分类器的平均性能值，一个完美分类器的AUC为1.0, 而随机猜测的AUC为0.5

3. 偏差和方差：

4. 随机森林：

bagging的一种扩展，RF是以决策树为基学习器构建Bagging的过程，进一步在决策树的训练过程中引入了随机属性选择。

传统的决策树是在当前节点的属性集合中选择一个最优的属性，RF中对基决策树的每个节点，先从该节点的属性集合中随机选择一个包含k个属性的子集，在子集中选择一个最优的用做划分。

5. 结合策略：

1）结合的好处：

2）结合策略：

6. 多样性：误差-分歧分解；多样性度量的各种策略

以上是关于机器学习之集成学习的主要内容，如果未能解决你的问题，请参考以下文章