机器学习 | 随机森林推测泰坦尼克号存活概率
Posted AI算法攻城狮
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了机器学习 | 随机森林推测泰坦尼克号存活概率相关的知识,希望对你有一定的参考价值。
集成学习方法
通过某种方式将多个单一模型组合起来,使用它们的“集体智慧”来解决问题。
随机森林
随机森林由n个决策树组成,模型的预测结果等于各决策树结果的某种“加权平均”
1、对于分类问题,最终结果等于在决策树预测结果中出现次数最多的类别。直观上,可以将每个决策树想象成一个人,而随机森林想象成一场投票,通过少数服从多数的原则取的最终的结果。
2、对于回归问题,最终结果等于决策树预测结果的平均值。
随机森林的建模依据是:一棵树犯错的概率比较大,但是很多树同时犯错的概率就很小了。
建立多个树的过程
现在有N个样本, M个特征
建立多个树,其实就是随机的建立单个树
单个树建立过程:
随机在N个样本当中选择一个样本,重复N次 样本可能会重复。为了让样本数相等
随机在M个特征中选出m个特征
之后建立10棵决策树,每个决策树的样本,特征大多不一样。每个树都是随机有放回的抽样(bootstrop)
随机森林的API
以上是关于机器学习 | 随机森林推测泰坦尼克号存活概率的主要内容,如果未能解决你的问题,请参考以下文章
机器学习之路:python 综合分类器 随机森林分类 梯度提升决策树分类 泰坦尼克号幸存者
机器学习第一步——用逻辑回归及随机森林实现泰坦尼克号的生存预测