如何为 xgboost 实施增量训练？

Posted 2023-02-23

技术标签:

【中文标题】如何为 xgboost 实施增量训练？【英文标题】：How can I implement incremental training for xgboost? 【发布时间】：2016-10-30 23:54:18 【问题描述】：

问题是由于火车数据大小，我的火车数据无法放入 RAM。所以我需要一种方法，首先在整个火车数据集上构建一棵树，计算残差构建另一棵树等等（就像梯度提升树一样）。显然，如果我在某个循环中调用 model = xgb.train(param, batch_dtrain, 2) - 这将无济于事，因为在这种情况下，它只会为每个批次重建整个模型。

【问题讨论】：

来自xgboost repo 的示例：github.com/dmlc/xgboost/blob/master/tests/python/… 【参考方案1】：

在第一批训练后尝试保存您的模型。然后，在连续运行时，为 xgb.train 方法提供已保存模型的文件路径。

这是我进行的一个小实验，以说服自己它有效：

首先，将波士顿数据集拆分为训练集和测试集。然后将训练集分成两半。用前半部分拟合一个模型，得到一个作为基准的分数。然后用后半部分拟合两个模型；一个模型将具有附加参数 xgb_model。如果传入额外的参数没有影响，那么我们希望他们的分数是相似的.. 但是，幸运的是，新模型的性能似乎比第一个要好得多。

import xgboost as xgb
from sklearn.cross_validation import train_test_split as ttsplit
from sklearn.datasets import load_boston
from sklearn.metrics import mean_squared_error as mse

X = load_boston()['data']
y = load_boston()['target']

# split data into training and testing sets
# then split training set in half
X_train, X_test, y_train, y_test = ttsplit(X, y, test_size=0.1, random_state=0)
X_train_1, X_train_2, y_train_1, y_train_2 = ttsplit(X_train, 
                                                     y_train, 
                                                     test_size=0.5,
                                                     random_state=0)

xg_train_1 = xgb.DMatrix(X_train_1, label=y_train_1)
xg_train_2 = xgb.DMatrix(X_train_2, label=y_train_2)
xg_test = xgb.DMatrix(X_test, label=y_test)

params = 'objective': 'reg:linear', 'verbose': False
model_1 = xgb.train(params, xg_train_1, 30)
model_1.save_model('model_1.model')

# ================= train two versions of the model =====================#
model_2_v1 = xgb.train(params, xg_train_2, 30)
model_2_v2 = xgb.train(params, xg_train_2, 30, xgb_model='model_1.model')

print(mse(model_1.predict(xg_test), y_test))     # benchmark
print(mse(model_2_v1.predict(xg_test), y_test))  # "before"
print(mse(model_2_v2.predict(xg_test), y_test))  # "after"

# 23.0475232194
# 39.6776876084
# 27.2053239482

参考：https://github.com/dmlc/xgboost/blob/master/python-package/xgboost/training.py

【讨论】：

我知道 model_2_v2 的性能比同时使用两个数据集的模型差。但是 model_2_v2 比 model_1 差，这很奇怪，因为我们提供了 model_1 没有看到的新数据集，但最后 model_2_v2 表现更差......似乎提升树不是执行增量学习的最佳方式。 @pikachau 您是否尝试过使用 model_1 而不是“experiment.model”？这可能是因为数据集非常小（样本大小 = 150）。对于更大的数据集，我认为 model_2_v2 应该优于 model_1。哦，experiment.model == model_1;我应该说得更清楚！ model_2_v_2 的结果是否应该与在整个训练集（train_1 和 train_2）上训练的模型相同？ XGBoost 的主要维护者在这里被引用说这不是正确的用法，不会导致预期的行为。 XGBoost 似乎无法进行迭代训练。 github.com/dmlc/xgboost/issues/3055#issuecomment-359648107。另见datascience.stackexchange.com/questions/47510/… 另见datascience.stackexchange.com/questions/47510/… ***.com/questions/48366379/…【参考方案2】：

现在（0.6 版？）有一个 process_update 参数可能会有所帮助。这是一个实验：

import pandas as pd
import xgboost as xgb
from sklearn.model_selection import ShuffleSplit
from sklearn.datasets import load_boston
from sklearn.metrics import mean_squared_error as mse

boston = load_boston()
features = boston.feature_names
X = boston.data
y = boston.target

X=pd.DataFrame(X,columns=features)
y = pd.Series(y,index=X.index)

# split data into training and testing sets
rs = ShuffleSplit(test_size=0.3, n_splits=1, random_state=0)
for train_idx,test_idx in rs.split(X):  # this looks silly
    pass

train_split = round(len(train_idx) / 2)
train1_idx = train_idx[:train_split]
train2_idx = train_idx[train_split:]
X_train = X.loc[train_idx]
X_train_1 = X.loc[train1_idx]
X_train_2 = X.loc[train2_idx]
X_test = X.loc[test_idx]
y_train = y.loc[train_idx]
y_train_1 = y.loc[train1_idx]
y_train_2 = y.loc[train2_idx]
y_test = y.loc[test_idx]

xg_train_0 = xgb.DMatrix(X_train, label=y_train)
xg_train_1 = xgb.DMatrix(X_train_1, label=y_train_1)
xg_train_2 = xgb.DMatrix(X_train_2, label=y_train_2)
xg_test = xgb.DMatrix(X_test, label=y_test)

params = 'objective': 'reg:linear', 'verbose': False
model_0 = xgb.train(params, xg_train_0, 30)
model_1 = xgb.train(params, xg_train_1, 30)
model_1.save_model('model_1.model')
model_2_v1 = xgb.train(params, xg_train_2, 30)
model_2_v2 = xgb.train(params, xg_train_2, 30, xgb_model=model_1)

params.update('process_type': 'update',
               'updater'     : 'refresh',
               'refresh_leaf': True)
model_2_v2_update = xgb.train(params, xg_train_2, 30, xgb_model=model_1)

print('full train\t',mse(model_0.predict(xg_test), y_test)) # benchmark
print('model 1 \t',mse(model_1.predict(xg_test), y_test))  
print('model 2 \t',mse(model_2_v1.predict(xg_test), y_test))  # "before"
print('model 1+2\t',mse(model_2_v2.predict(xg_test), y_test))  # "after"
print('model 1+update2\t',mse(model_2_v2_update.predict(xg_test), y_test))  # "after"

输出：

full train   17.8364309709
model 1      24.2542132108
model 2      25.6967017352
model 1+2    22.8846455135
model 1+update2  14.2816257268

【讨论】：

哪个是最终模型或我应该使用哪个？您想要 MSE 最低的模型。但请注意 1+update2 如何低于完整的火车！我不清楚为什么会这样，所以我会怀疑这个结果并运行一个包含更多折叠的简历。这似乎不适用于'objective': 'binary:logistic' 如果我用两次迭代训练，我得到的 AUC 为 0.66 和 0.68 的连续迭代。然后，当使用完全相同的数据训练下一个小批量时，我得到完全相同的 AUC。我希望，在继续使用现有模型时，AUC 会进一步改进或者可能保持不变。从获得相同的 AUC 后，我得出结论，它不会继续学习，而是重新开始。 'process_type': 'update' - 在 xgboost 1.9 中出现错误【参考方案3】：

我创建了a gist of jupyter notebook 来证明可以增量训练 xgboost 模型。我使用波士顿数据集来训练模型。我做了 3 个实验——一次学习，迭代一次学习，迭代增量学习。在增量训练中，我将波士顿数据以 50 大小的批次传递给模型。

要点在于，您必须多次迭代数据才能使模型收敛到一次性（所有数据）学习所达到的准确度。

这里是用xgboost做迭代增量学习的对应代码。

batch_size = 50
iterations = 25
model = None
for i in range(iterations):
    for start in range(0, len(x_tr), batch_size):
        model = xgb.train(
            'learning_rate': 0.007,
            'update':'refresh',
            'process_type': 'update',
            'refresh_leaf': True,
            #'reg_lambda': 3,  # L2
            'reg_alpha': 3,  # L1
            'silent': False,
        , dtrain=xgb.DMatrix(x_tr[start:start+batch_size], y_tr[start:start+batch_size]), xgb_model=model)

        y_pr = model.predict(xgb.DMatrix(x_te))
        #print('    MSE itr@: '.format(int(start/batch_size), sklearn.metrics.mean_squared_error(y_te, y_pr)))
    print('MSE itr@: '.format(i, sklearn.metrics.mean_squared_error(y_te, y_pr)))

y_pr = model.predict(xgb.DMatrix(x_te))
print('MSE at the end: '.format(sklearn.metrics.mean_squared_error(y_te, y_pr)))

XGBoost 版本：0.6

【讨论】：

感谢您的笔记本 - 我想知道仅在模型性能高于内部 for 循环中的阈值时才增加是否有意义？所以我们不会增加每一步，而是模型做得好的一些步骤？另外你的超参数调整策略是什么？【参考方案4】：

看起来您除了再次致电您的xgb.train(....) 之外不需要任何其他东西，但提供上一批的模型结果：

# python
params =  # your params here
ith_batch = 0
n_batches = 100
model = None
while ith_batch < n_batches:
    d_train = getBatchData(ith_batch)
    model = xgb.train(params, d_train, xgb_model=model)
    ith_batch += 1

这是基于https://xgboost.readthedocs.io/en/latest/python/python_api.html

【讨论】：

【参考方案5】：

如果您的问题与数据集大小有关，并且您并不真正需要增量学习（例如，您不是在处理流式应用程序），那么您应该查看 Spark 或 Flink。

这两个框架可以利用磁盘内存在具有小 RAM 的非常大的数据集上进行训练。两个框架都在内部处理内存问题。虽然 Flink 先解决了这个问题，但 Spark 在最近的版本中已经赶上了。

看看：

“XGBoost4J：Spark、Flink 和 Dataflow 中的便携式分布式 XGBoost”：http://dmlc.ml/2016/03/14/xgboost4j-portable-distributed-xgboost-in-spark-flink-and-dataflow.html Spark 集成：http://dmlc.ml/2016/10/26/a-full-integration-of-xgboost-and-spark.html

【讨论】：

由于某种原因（至少对我而言），您的两个链接都重定向到“softcloudtech.com/cloud-computing”。我认为有正确的xgboost.ai/2016/03/14/… 和xgboost.ai/2016/10/26/…。还要感谢我需要训练 CNN 输出的大量特征的建议，所以这会有所帮助！【参考方案6】：

对于 paulperry 的代码，如果将一行从“train_split = round(len(train_idx) / 2)”更改为“train_split = len(train_idx) - 50”。模型 1+update2 将从 14.2816257268 更改为 45.60806270012028。并且很多“leaf=0”导致转储文件。

当更新样本集相对较小时，更新模型不好。对于 binary:logistic，当更新样本集只有一个类时，更新的模型是不可用的。

【讨论】：

【参考方案7】：

我没有测试过的一个可能的解决方案是使用一个 dask 数据帧，它的行为应该与 pandas 数据帧相同，但（我假设）利用磁盘并读入和读出 RAM。这里有一些有用的链接。 this link 提到如何将它与 xgboost 一起使用，另请参阅 also see。此外，这里还有an experimental options from XGBoost，但它“尚未准备好投入生产”

【讨论】：

【参考方案8】：

Hey guys you can use my simple code for incremental model training with xgb base class :

    batch_size = 10000000


    X_train="your pandas training DataFrame" 
    y_train="Your lables"
    
    #Store eval results
    evals_result=
    Deval = xgb.DMatrix(X_valid, y_valid)
    eval_sets = [(Dtrain, 'train'), (Deval, 'eval')]
    for start in range(0, n, batch_size):
           model = xgb.train('refresh_leaf': True, 
                         'process_type': 'default', 
                         'max_depth': 5, 
                         'objective': 'reg:squarederror', 
                         'num_parallel_tree': 2,
                        'learning_rate':0.05,
                        'n_jobs':-1,
                        dtrain=xgb.DMatrix(X_train, y_train), evals=eval_sets, early_stopping_rounds=5,num_boost_round=100,evals_result=evals_result,xgb_model=model)

【讨论】：

以上是关于如何为 xgboost 实施增量训练？的主要内容，如果未能解决你的问题，请参考以下文章