R语言数据分析|随机森林
Posted UMadeMyDay
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了R语言数据分析|随机森林相关的知识,希望对你有一定的参考价值。
一、概念
集成学习:将多个弱分类器集成为强分类器。
回到原点:改变数据生成一棵树,然后再次改变数据,生成另一个树,最后取它们的平均值或者让它们投票选出票数最多的类,可能会提高准确性。
随机森林:准确性大于99%的决策树
二、算法
设给定d个元组的训练集D,为组合分类器产生k颗决策树
(1)使用有放回抽样生成训练集Di, 每个Di都是D的一个自助样本,某些元组在Di中出现多次,而某些元组不出现。
(2)每个自助样本集生长为单棵分类树:设F是用来在每个节点决定划分的属性数,其中F远小于可用属性数。为构造决策分类器Mi,在每个节点随机选择F个属性作为该节点划分的候选属性。
(3)采用简单多数投票法得到随机森林的结果
抽取n份数据(有放回的抽样)——选取少数的特征(若干列)——完全生长——多数表决
每个专家的经验不一样,每个专家的视角不一样,每棵树都是一个专家
三、代码实现
library(randomForest)
set.seed(2012)
imodel<-randomForest(wlfk~., ntree=220, data=cjb[train_set_index,]) #波浪号后面是自变量
# 在训练集上表现
predicted_train<-predict(imodel, newdata=cjb[train_set_idx,],type="response")
Metrics::ce(cjb$wlfk[train_set_idx], predicted_test)
# 在测试集上表现
predicted_train<-predict(imodel, newdata=cjb[-train_set_idx,],type="response")
Metrics::ce(cjb$wlfk[-train_set_idx], predicted_test)
自律小tips:最高明的自律是巧妙借助他律来完成的!
以上是关于R语言数据分析|随机森林的主要内容,如果未能解决你的问题,请参考以下文章
机器学习|R语言|利用随机森林对二手车交易价格进行评估(内含完整代码与数据)
R语言逻辑回归(Logistic Regression)回归决策树随机森林信用卡违约分析信贷数据集|附代码数据
R语言随机森林RandomForest逻辑回归Logisitc预测心脏病数据和可视化分析|附代码数据