为啥使用 1 个估计器的 adaboost 比简单的决策树更快?

Posted

技术标签:

【中文标题】为啥使用 1 个估计器的 adaboost 比简单的决策树更快?【英文标题】:Why is adaboost with 1 estimator faster than a simple decision tree?为什么使用 1 个估计器的 adaboost 比简单的决策树更快? 【发布时间】:2017-03-26 14:24:38 【问题描述】:

我想比较 adaboost 和决策树。作为原则证明,我将adaboost 中的估计器数量设置为1,并使用决策树分类器作为默认值,期望与简单决策树相同的结果。

我在预测我的测试标签时确实得到了同样的准确度。但是,adaboost 的拟合时间要短得多,而测试时间要长一些。 Adaboost 似乎使用与DecisionTreeClassifier 相同的默认设置,否则,精度不会完全相同。

谁能解释一下?

代码

from sklearn.ensemble import AdaBoostClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score   

print("creating classifier")
clf = AdaBoostClassifier(n_estimators = 1)
clf2 = DecisionTreeClassifier()

print("starting to fit")

time0 = time()
clf.fit(features_train,labels_train) #fit adaboost
fitting_time = time() - time0
print("time for fitting adaboost was", fitting_time)

time0 = time()
clf2.fit(features_train,labels_train) #fit dtree
fitting_time = time() - time0
print("time for fitting dtree was", fitting_time)

time1 = time()
pred = clf.predict(features_test) #test adaboost
test_time = time() - time1
print("time for testing adaboost was", test_time)

time1 = time()
pred = clf2.predict(features_test) #test dtree
test_time = time() - time1
print("time for testing dtree was", test_time)

accuracy_ada = accuracy_score(pred, labels_test) #acc ada
print("accuracy for adaboost is", accuracy_ada)

accuracy_dt = accuracy_score(pred, labels_test) #acc dtree
print("accuracy for dtree is", accuracy_dt)

输出

('time for fitting adaboost was', 3.8290421962738037)
('time for fitting dtree was', 85.19442415237427)
('time for testing adaboost was', 0.1834099292755127)
('time for testing dtree was', 0.056527137756347656)
('accuracy for adaboost is', 0.99089874857792948)
('accuracy for dtree is', 0.99089874857792948)

【问题讨论】:

features_train的维度是多少?当我用 100 个 3 维样本重复你的实验时,决策树的速度大约是 Adaboost 的 10 倍。 另外,尝试使用分析器。 IPython 的魔法%prun 是一个不错的选择。 Features_train 有 3785 个样本的 16000 个特征。我对这两者之间的概念差异很感兴趣。他们采用的算法有何不同?我希望带有 1 个估算器的 AdaBoostClassifier 能完全做到 DecisionTreeClassifier 所做的事情。 【参考方案1】:

我试图在 IPython 中重复你的实验,但我看不出有这么大的不同:

from sklearn.ensemble import AdaBoostClassifier
from sklearn.tree import DecisionTreeClassifier
import numpy as np
x = np.random.randn(3785,16000)
y = (x[:,0]>0.).astype(np.float)    
clf = AdaBoostClassifier(n_estimators = 1)
clf2 = DecisionTreeClassifier()
%timeit clf.fit(x,y)
1 loop, best of 3: 5.56 s per loop
%timeit clf2.fit(x,y)
1 loop, best of 3: 5.51 s per loop

尝试使用分析器,或先重复实验。

【讨论】:

【参考方案2】:

您在以下几行中定义的两个分类器:

clf = AdaBoostClassifier(n_estimators = 1)
clf2 = DecisionTreeClassifier()

实际上定义了非常不同的分类器。在第一种情况下 (clf),您定义了一个 (n_estimators = 1)max_depth=1 决策树。这在文档中有解释:

https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.AdaBoostClassifier.html

解释的地方:

“基本估计量是 DecisionTreeClassifier(max_depth=1)”

对于第二种情况 (clf2),您正在使用 max_depth 定义决策树,该决策树由使所有叶子纯净所需的数量确定。同样,您可以通过阅读文档找到这一点:

https://scikit-learn.org/stable/modules/generated/sklearn.tree.DecisionTreeClassifier.html#sklearn.tree.DecisionTreeClassifier

故事的寓意是:阅读文档!

【讨论】:

以上是关于为啥使用 1 个估计器的 adaboost 比简单的决策树更快?的主要内容,如果未能解决你的问题,请参考以下文章

sklearn 的 Adaboost predict_proba 如何在内部工作?

AdaBoost 与 SVM 基分类器的执行时间

为啥 # 选择器的特异性比任何东西都低?

集成学习-Adaboost 进阶

利用Adaboost提高分类性能

AdaBoost理解