10、决策树集成--随机森林

Posted 2023-04-03

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了10、决策树集成--随机森林相关的知识，希望对你有一定的参考价值。

参考技术A

随机森林本质上是许多决策树的集合，其中每棵树都和其他树略有不同，每棵树的预测可能都相对较好，但可能对部分数据过拟合，我们对这些树的结果取平均值来降低过拟合，这样既保证了预测能力，又降低了过拟合。随机森林可用于回归RandomForestRegressor和分类RandomForestClassifier。

随机树构造方法：一每棵树随机选择数据，从n个数据中有放回地随机抽取一个样本，共抽取n次，这样会创建一个与原数据集大小相同的数据集，但有些数据会缺失（大约三分之一），有些会重复。二每棵树随机选择特征，选择部分特征而不是全部。

输出

在没有调节任何参数的情况下，随机森林的精度为97%，比分类算法（逻辑回归、线性SVM）或单棵决策树都要好。随机森林的默认参数通常就可以给出很好的结果。

输出

与单棵树相比，随机森林中有更多的特征的重要性不为0。它选择了“worst perimeter”（最大周长）作为信息量最大的特征，单棵决策树选的是“worst radius”（最大半径）。一般来说，随机森林给出的特征重要性要比单棵树给出的更为可靠，随机森林比单棵树更能从总体把握数据的特征。

这种方法非常强大，通常不需要反复调节参数就可以给出很好的结果，也不需要对数据进行缩放。随机森林拥有决策树的所有优点，同时弥补了决策树的一些缺陷。

随机森林是随机的，设置不同的随机状态（不设置random_state参数）可以彻底改变构建的模型。

随机森林中的树越多，模型的鲁棒性就越好。更多的树可以降低过拟合，但需要的内存也越多，即在内存允许的情况下尽量多。

对于维度非常高的稀疏数据（比如文本数据），随机森林的表现往往不是很好。

调节的参数主要有n_estimators（树的个数）、max_features和max_depth。n_estimators总是越大越好，较小的max_features可以降低过拟合，一般来说使用默认值就好。

集成学习 - 决策树-随机森林

认识

我觉得决策树+ 随机森林应该是 ML 中最为重要的算法之一了吧, 反正我是很喜欢用的.

算法难度低, 可解释性很强, 能可视化
能处理非线性, 可扩展为随机森林(集成学习)

建立决策树的判别依据有很多, 比较主流的有经典的 ID3 算法(熵), C4.5 , 基尼系数等. 我是这种基于熵的理解了, 上学时学过熵的概念, 在<<管理信息系统>> 和 <<系统工程概论>> 有讲到. 其余的也没仔细看, 暂时能深入理解一个就可以了.

信息熵

衡量信息的不确定性或混乱程度的指标
不确定性越大, 则熵值越大

直观认知

举几个栗子:

a. 大海捞针: 几乎不可能, 熵值很大

b. 扔一次硬币: 不确定性也很大, 熵值很大

c. 詹姆斯强攻篮下: 进球概率大, 不确定性很小, 因此熵值小

d. 斗地主时我已经推出对方剩下的牌: 这个信息量就很大了, 对于局势不确定性减少, 则熵变小.

通过直观, 我们用 信息熵 这个概念来 衡量信息的不确定性大小, 如何对这个概念直观定性呢?

信息量,感觉上跟概率有关系, 概率很多, 信息量就很多
信息量, 应该是可以相加的
信息量, 应该是一个单调的
信息量, 应该不能为负数, 最多只能有, 最差情况是没有信息含量, 不能说负吧

理性认知

也可以从系统论的观点来认识 (系统 = 多个元素的相互联系).

可以肯定一点, 既然跟概率有关, 那概率取值是 [0,1], 多个事件的发生, 如是独立事件 则可以概率相加 , 但如果是条件概率, 涉及概率相乘, 那这就麻烦了.

信息熵 = p(x1) + p(x2) ... ?
信息熵 = p(x1)p(x2).....?

因为计算机是有精度的嘛, 如果多个 [0, 1] 之间的数相乘, 计算机就 overflow 了, 同时, 乘法也算起来也比较麻烦, 怎么处理呢, 当然是用对数呀, 乘法变加法, 同时还单调的 (log 默认底数为2哈)

(log[p(x1) * p2(x2) * p(x3)] = log p(x1) + log p(x2) + log p(x3))

同时呢, 再加上概率自身作为权重, 那这样就能想到信息熵的公式了

某事件x的信息熵 (= -P(x)log(P(x)))

为啥要有 - 负号? 因为 (log_2 x) 在 [0,1] 是小于0 的, 为了保证信息量非负

结论: 信息熵 = 概率 * log(概率)

对于一个事件而言, 多个随机变量的值组成

(H(X) = - sum limits _{i=1}^n P(X=x_i)log(P(X=x_i)))

case

扔硬币的结果看作一个随机事件 X, 则 X 的分布有两种结果, 即正面, 反面

硬币1 (质地均匀):

估算出: 正面的概率是 0.5, 反面的概率是 0.5

则熵 (Entropy) = (0.5 * log(0.5) + 0.5 * log(0.5) = 1)

说明, 质地均匀的的硬币, 熵还是很大的, 也就是说不确定性很大, 也可以说机会均等(公平竞争嘛)

硬币2(质地不均匀)

估算出: 正面的概率是 0.99, 反面的概率是 0.01

则熵(Entropy) = (0.99* log(0.99) + 0.01 *log(0.01) = 0.08)

说明, 质地不均匀的硬币, 熵是较小的, 也就是说不确定性很小, 也可以说赌场出老千(不平等竞争)

条件熵

条件熵是通过,获得更多信息来减少不确定性(熵). 即我们知道到信息越多, 信息的不确定性越小, 则熵越小.

就跟平时做促销激励是一样的. 我之前在一家房地产公司做数据分析师, 是跟着运营线走吗, 每周开会,就会结合市场来主打哪个楼盘. 在没有说要主打前, 我这的报表数据, 带看,认筹量基本是平缓的, 环比上月也无显著变化. 那这时候的熵值其实很很大的, 因为不确定也很大,对于公司. 于是跟着市场趋势, 主打某个楼盘, 大力宣传和促销激励, 这时的数据就会明细陡峭, 销量也会上升, 通过促销提高了房子的销量, 从而减少了销售的熵值(不确定性).

从代数上来表示, 假设购房事件是 X, 促销事件是 Y, 则要求的是 P(X|Y), 即 Y 事件发生的情况下, X 发生的条件概率的熵

(H(X|Y) = -sum limits_{v=1}^n P(Y=i) H(X|Y = v))

跟条件概率的写法是一样的.

(H(X|Y=v) = -sum limits _{i}^n P(X=i|Y=v)log_2 P(X=i|Y=v))

信息增益

(I(XY) = H(X) - H(X|Y) = H(Y) - H(X|Y))

(H(X) = -sum limits _{i=1}^n P(X=i) log_2 P(X=i))
(H(X|Y=v) = -sum limits _{i=1}^n P(X|Y=v) log_2 P(X|Y=v))
(H(X|Y) = -sum limits_{v=1}^n P(Y=i) H(X|Y = v))

case : 计算信息增益

构造一棵树. 假设数据有两个类别, 共有 30个点

父节点: A有16个点, B有14个点

按某种条件再划分两个子节点

左子节点: A有12个, B有1个
有子节点: A有4个, B有13个

则:

父节点熵 =( [-(frac {16}{30} log_2 frac {16}{30})] +[ -(frac {14}{30} log_2 frac {14}{30})] = 0.996)

左子节点 = ( [-(frac {12}{13} log_2 frac {12}{13})] +[ -(frac {1}{13} log_2 frac {1}{13})] = 0.391)

右子节点 = ( [-(frac {4}{17} log_2 frac {4}{17})] +[ -(frac {13}{17} log_2 frac {13}{17})] = 0.787)

则条件熵 = ((frac {13}{30} * 0.391 + frac {17}{30} * 0.787 = 0.615)

则 信息增益 = 0.996 - 0.615

为啥信息增益非常重要呢?

信息增益越大, 则说明,刚加入的这条信息的信息量很大, 则, 对不确定性的减少越大, 则越有信心

由上, 父节点按不同的方式划分节点会得到不同的信息增益, 选择信息增益最大的, 作为子节点的划分方式

案例 -根据天气判断打高尔夫

这是网上的一个案例.

Outlook	Temp	Humidity	Wind	Play Golf
rainy	hot	high	false	no
rainy	hot	high	true	no
overcast	hot	high	false	yes
sunny	mild	high	false	yes
sunny	cool	normal	false	yes
sunny	cool	normal	false	no
overcast	cool	normal	true	yes
rainy	mild	high	true	no
rainy	cool	normal	false	yes
sunny	mild	normal	false	yes
rainy	mild	normal	true	yes
overcast	mild	high	true	yes
overcast	hot	normal	false	yes
sunny	mild	high	true	no

需求: 根据天气情况, 判断这位兄弟, 会不会来打高尔夫

(H(X) = -sum limits _{i=1}^n p(x_i)log p(x_i))

首先, 计算一波父节点的熵, 即根据 Play Golf 来计算:

Play Golf	频次	频率	熵
yes	9	0.64	0.41
no	5	0.36	0.53
合计	14	1	0.94

即通过历史数据, 这个兄弟, 打球的概率为 64%, 不打为 36%, 熵值达到了 0.94, 挺高的, 不确定很大呀.

然后, 构造第一个子节点

有4个特征可以作为划分依据, 随便取, 算了,就按第一个 outlook 吧

ps: 可以用 excel 对数据进行透视呀

outlook	yes	no	频次	概率
rainy	2	3	5	0.36
overcast	4	0	4	0.29
sunny	3	2	5	0.36
合计	9	5	14

outlook	yes	no	熵
rainy	0.4	0.6	0.97
overcast	1	0	0
suny	0.6	0.4	0.97

Outlook 的条件熵 = 0.36* 0.97 + 0.290 + 0.36 0.97 = 0.69

信息增益-Outlook = 0.94 - 0.69 = 0.25

接着对 temp 作为划分

Temp	yes	no	频次	频率
hot	2	2	4	0.29
mild	4	2	6	0.43
cool	3	1	4	0.29
			14

Temp	yes	no	熵
hot	0.5	0.5	1
mild	0.67	0.33	0.92
cool	0.75	0.25	0.81

Temp 的条件熵 = 0.2 * 9 * 1 + 0.43 * 0.92 + 0.29 * 0.81 = 0.92

信息增益-Temp = 0.94 - 0.92 = 0.02

.... 重复上

信息增益-Wind = 0.94 - 0.89 = 0.05

信息增益-Humidity = 0.94 - 0.79 = 0.15

这样遍历一轮后, 发现, 发现信息增益最大的是按Outlook 来分的情况, 达到 0.25, 即为当前最佳分类特征

因此, 决策树的第一层就构建好了

Outlook

sunny
overcast
- yes (叶子节点)
rainny

然后再继续往下对 sunny 和 overcast 作为同样操作

...

直到找到所有的叶子节点, 这样就构建好了一颗决策树如下:

Outlook

sunny
- wind
  - false
    - Y
  - true
    - N
overcast
- Y
rainy
- humidtiy
  - high
    - N
  - normal
    - Y

树建好了, 其实也就是预测的过程.

对于非类别情况

就是对于连续型的变量, 解决的方案是:

将实数值等分为 n 个区间, 然后将一个区间内的值, 看作是一个类别

if temp < 15 -> cool

if 15 < temp < 28 -> mild

....

就不就是再平时常说的 数据离散化 嘛

决策树小结

优势:

可解释性高
能处理非线性数据
不需要对数据做归一化
可用于做特征选择
对数据分布不考虑
容易软件实现和可视化

劣势:

容易过拟合
微小的数据改变,会改变整个数的形状
对类别不平衡 的数据不太好
不是最优解

我个人是非常推荐了, 主要是可以可视化+解释性高, 然后可以做成 PPT 跟老板展示, 另外也比较好写代码实现, 另外一点, 之前在写推荐系统 的代码时, 在特征处理部分, 有特征值缺失, 我当时就用了 随机森林来预测特征的缺失值

决策树, 用处多多, 真的非常棒!

随机森林

= Bagging w. Trees + random feature

直观上理解就是, 采用 bootsrap 方法, 训练多个决策树, 最后对所有的结果(Bagging) 进行 voting (投票) 而已啦.

我个人常用的一种分法如下:

N表是训练样本的个数, P表示特征数目(p维矩阵)
- 一次随机去除一个样本(一行), 重复N次
- 随机去选出p个特征, p<P, 建立决策树
采取bootstrap(有放回抽样)

如和随机构造树

即讨论, 是按照每一棵树来随机选择特征, 还是按照每一个树的节点来选择特征. 从现在的应用来看, 还是 Breiman , Lee 在 2001年的paper 观点, 会有更多认同

"....Random forest with random features is formed by selecting at random, at each node, a small group of input variables to split on"

随机森林小结

当前所有算法中, 具有极高的准确率 (属于集成学习)
能有效地运行在大数据集上, 和处理高纬度的样本, 不需要降维
是近乎完美的分类器

反正, 我是特别推崇决策树/随机森林的

调参侠sklearn 一次

好久都没有贴代码了, 也没有自己去实现用numpy, 重点是先放在了理解数学原理上了. 不过工作中还是要以代码为主, 吓得我赶紧 copy 一段来压压惊,

调API 真的没啥技术含量, 如果不理解原理的话.

kaggle 的一个经典数据集泰坦尼克号生存预测

import pandas as pd 
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction import DictVectorizer
from sklearn.tree import DecisionTreeClassifier
from sklearn.tree import export_graphviz

data = pd.read_csv("titanic.txt")
y = data['survived']
# 特征选择, 这里是反复测试的过程
X = data[['pclass', 'age', 'sex']]
# age字段有缺失值, 用均值去填充
X['age'].fillna(X['age'].mean(), inplace=True)

# 特征工程-对类别数据要进行OneHot编码
# 先将df转为dict, [{},{}..]再编码
X.to_dict(orient='records')

# 划分数据集
X_train, X_test, y_train, y_test = train_test_split(X,y,test_size=0.25)
# 特征提取
d = DictVectorizer()
X_train = d.fit_transform(X_train)
X_test = d.transform(X_test)

print(X_train.toarray())
# 模型训练
tree = DecisionTreeClassifier(max_depth=5)
tree.fit(X_train)

# 查看
print("真实结果:", y_test.values)
print('预测结果:', tree.predict(X_test))
print('准确分数:', tree.score(X_test, y_test))

# 剪枝算法: 通过设置depth来达到减少树的深度的效果
# 树可视化: 将树导出到dot文件中, 可视化观察,前提win下要安装一个exe
exprot_graphviz(tree, "test.doc", 
                feture_names=['age', 'pclass=lst', 'pclass=2nd', 'pclass=3rd',
                              'female', 'male'])

改为调用随机森林的 API

# 随机森林去完成, 泰坦尼克号的预测
rf = RandomForestClassifier()

param = {'n_estimators:':[200, 500, 800, 1200, 1500, 2000], 
         'max_depth':[5, 8, 15, 24, 28, 32]}

# 超参数调优
gs = GridSearchCV(rf, param_grid=param, cv=5)

gs.fit(X_train, y_train)
print("随机森林预测的准确率为:", gs.score(x_test, y_test))

确实是, 数学理论推导,证明真的很麻烦,

but

调用API 的话, 真的非常容易, C V + 调参就可以了

IF 从算法的根源上去理解了

API 就是浮云, 认知深刻了, 才能做更好的调参侠.

以上是关于10、决策树集成--随机森林的主要内容，如果未能解决你的问题，请参考以下文章

sklearn库学习----随机森林(RandomForestClassifier，RandomForestRegressor)

随机森林(Random Forest)和梯度提升树(GBDT)有什么区别？