Python机器学习：7.1 集成学习

Posted 2020-10-27 aibbt

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了Python机器学习：7.1 集成学习相关的知识，希望对你有一定的参考价值。

集成学习背后的思想是将不同的分类器进行组合得到一个元分类器，这个元分类器相对于单个分类器拥有更好的泛化性能。比如，假设我们从10位专家那里分别得到了对于某个事件的预测结果，集成学习能够对这10个预测结果进行组合，得到一个更准确的预测结果。

后面我们会学到，有不同的方法来创建集成模型，这一节我们先解决一个基本的问题：为什么要用集成学习？她为什么就比单个模型效果要好呢？

本书是为初学者打造的，所以集成学习这里我们也只关注最基本的集成方法：投票法(majority voting)。投票法意味着我们在得到最后的预测类别时，看看哪个类别是大多数单分类器都预测的，这里的大多数一般是大于50%。更严格来说，投票法只适用于二分类，当然他很容易就扩展到多分类情况: 多数表决(plurality voting).

下图展示了一个投票法的例子，一共10个基本分类器：

技术分享图片

我们先用训练集训练m个不同的分类器 $技术分享图片$ , 这里的分类器可以是决策树、SVM或者LR等。我们当然也可以用同一种分类器，只不过在训练每一个模型时用不同的参数或者不同的训练集(比如自主采样法)。随机森林就是一个采用这种策略的例子，它由不同的决策树模型构成。这图展示了用投票策略的集成方法步骤：