调查joblib减速

Question

我正在尝试使用joblib并行制作自定义随机森林实施列车。

任务是令人尴尬的平行，所以我假设加速不应该太辛苦与joblib。

这是一些示例代码：

class RandomForest(object):
    def __init__(self, settings, data):
        self.forest = [None] * settings.n_trees
        self.parallel = Parallel(n_jobs=settings.njobs, backend="threading")

    def fit(self, data, train_ids_current_minibatch, settings, param, cache):
        self.forest = self.parallel(
            delayed(_parallel_build_trees_batch)(
                i_t, data, train_ids_current_minibatch, settings, param, cache)
            for i_t, tree in enumerate(self.forest))

    def partial_fit(self, data, train_ids_current_minibatch, settings, param, cache):
        self.forest = self.parallel(
            delayed(_parallel_build_trees_partial)(
                tree, i_t, data, train_ids_current_minibatch, settings, param, cache)
            for i_t, tree in enumerate(self.forest))

但是，在批处理和增量情况下，使用多个作业时，培训速度要慢得多。数据和缓存参数是包含（大）numpy数组的dicts，所以我想知道这是否是原因。

我尝试使用multiprocessing.Pool进行相同的编码，结果更糟，因为没有使用joblib的threading后端，我假设因为fit函数大量使用numpy / scipy代码。

关于如何调试/修复减速的任何想法？