我已经看到有很多关于这个主题的问题,但似乎没有一个对我的问题给出令人满意的答案。我打算在 Windows 机器上将 caret::train() 与库 doParallel 结合使用。文档 (The caret package: 9 Parallel Processing) 告诉我,如果找到已注册的集群,它将默认并行运行(尽管它使用库 doMC)。当我尝试使用 doParallel 设置集群并按照其文档 (Getting Started with doParallel and foreach) 中的示例计算进行操作时,一切正常。当我取消注册集群并运行caret::train() 时,一切正常。但是当我创建一个新集群并尝试运行caret::train() 时,它会产生错误Error in serialize(data, node$con) : error writing to connection。我还包括下面的日志。我不明白caret::train() 在非并行模式下是如何工作的,但在并行模式下却不是,尽管集群似乎设置正确。




R version 3.4.1 (2017-06-30)
Platform: x86_64-w64-mingw32/x64 (64-bit)
Running under: Windows 7 x64 (build 7601) Service Pack 1

Matrix products: default

[1] LC_COLLATE=English_United States.1252  LC_CTYPE=English_United States.1252   
[3] LC_MONETARY=English_United States.1252 LC_NUMERIC=C                          
[5] LC_TIME=English_United States.1252    

doParallel 文档中的运行示例(无错误)

cores_2_use <- floor(0.8 * detectCores())
cl <- makeCluster(cores_2_use, outfile = "parallel_log1.txt")

x <- iris[which(iris[,5] != "setosa"), c(1,5)]
trials <- 100
temp <- microbenchmark(
  r <- foreach(icount(trials), .combine=cbind) %dopar% 
    ind <- sample(100, 100, replace=TRUE)
    result1 <- glm(x[ind,2]~x[ind,1], family=binomial(logit))



x1 = rnorm(100)           # some continuous variables 
x2 = rnorm(100)
z = 1 + 2 * x1 + 3 * x2        # linear combination with a bias
pr = 1 / (1 + exp(-z))         # pass through an inv-logit function
y = rbinom(100, 1, pr)      # bernoulli response variable
df = data.frame(y = as.factor(ifelse(y == 0, "no", "yes")), x1 = x1, x2 = x2)

运行 caret::train() 非并行(无错误)

# train control function
ctrl <- 
    method = "repeatedcv", 
    number = 10,
    repeats = 5,
    classProbs = TRUE,
    summaryFunction = twoClassSummary)

# train function
  glm_nopar =
    train(y ~ .,
          data = df,
          method = "glm",
          family = "binomial",
          metric = "ROC",
          trControl = ctrl),
  times = 5)

#Unit: milliseconds
 #expr      min       lq     mean   median       uq      max neval
 #glm_nopar 691.9643 805.1762 977.1054 895.9903 1018.112 1474.284     5

并行运行 caret::train()(错误)

cores_2_use <- floor(0.8 * detectCores())
cl <- makeCluster(cores_2_use, outfile = "parallel_log2.txt")

  glm_par =
    train(y ~ .,
          data = df,
          method = "glm",
          family = "binomial",
          metric = "ROC",
          trControl = ctrl),
  times = 5)

#Error in serialize(data, node$con) : error writing to connection


在 Linux 设置中(见下文)也尝试不调用 parallel::makeCluster(),即如下所示,但结果相同。

cores_2_use <- floor(0.8 * detectCores())


Loading required package: caret
Loading required package: lattice
Loading required package: ggplot2
loaded caret and set parent environment
Error in unserialize(node$con) : 
  ReadItem: unknown type 0, perhaps written by later version of R
Calls: <Anonymous> ... doTryCatch -> recvData -> recvData.SOCKnode -> unserialize
Execution halted

编辑(在 Ubuntu 上尝试)



R version 3.4.1 (2017-06-30)
Platform: x86_64-pc-linux-gnu (64-bit)
Running under: Ubuntu 16.04.3 LTS

Matrix products: default
BLAS: /usr/lib/libblas/libblas.so.3.6.0
LAPACK: /usr/lib/lapack/liblapack.so.3.6.0

 [1] LC_CTYPE=en_US.UTF-8       LC_NUMERIC=C               LC_TIME=de_DE.UTF-8       
 [7] LC_PAPER=de_DE.UTF-8       LC_NAME=C                  LC_ADDRESS=C              

来自Getting Started with doMC and foreach 的示例



  glm_nopar =
    train(y ~ .,
          data = df,
          method = "glm",
          family = "binomial",
          metric = "ROC",
          trControl = ctrl),
  times = 5)

#Unit: seconds
#     expr      min       lq     mean   median       uq      max neval
#glm_nopar 1.093237 1.098342 1.481444 1.102867 2.001443 2.111333     5

插入符号与 Windows 等设置平行(给出错误)

cores_2_use <- floor(0.8 * parallel::detectCores())
cl <- parallel::makeCluster(cores_2_use, outfile = "parallel_log2_linux.txt")

  glm_par =
    train(y ~ .,
          data = df,
          method = "glm",
          family = "binomial",
          metric = "ROC",
          trControl = ctrl),
  times = 5)

# Error in getOper(ctrl$allowParallel && getDoParWorkers() > 1) :(list) object cannot be coerced to type 'double'


没有parallel::makeCluster() 调用的插入符并行(无错误)


cores_2_use <- floor(0.8 * parallel::detectCores())

  glm_par =
    train(y ~ .,
          data = df,
          method = "glm",
          family = "binomial",
          metric = "ROC",
          trControl = ctrl),
  times = 5)

#Unit: milliseconds
#    expr      min       lq     mean   median       uq      max neval
# glm_par 991.8075 997.4397 1013.686 998.8241 1004.381 1075.978     5


编辑添加 Ubuntu 测试。 parallel::makeCluster() 调用似乎会产生错误,但没有它也可以正常工作。 已编辑添加 Windows 设置,但不调用 parallel::makeCluster(),但会导致相同的错误。 我建议将更新作为一个新问题发布,因为它通常会使您的问题“过于宽泛”,并改变旧答案与您的问题的关系。 总的来说,我同意,但所有编辑都参考原始问题并添加到它而不是改变它的范围。而且我相信,未来的读者在看到已经尝试过的东西时会更加了解。 从一些错误消息(提到node$con)看来,您的一些工作人员(R 进程)可能已经死亡,导致与主进程的相应连接失败。他们可能因各种原因死亡,但请查看您的内存消耗,这通常会随着工人的数量线性增长。从少量工人 (=2) 开始,看看是否可行。 【参考方案1】:

看起来因为你在 Windows 上,所以你搞砸了

doMC 包充当 foreach 和 parallel 包的多核功能之间的接口,最初由 Simon Urbanek 编写并合并到 R2.14.0 的并行中。多核功能目前仅适用于支持 fork 系统调用的操作系统(这意味着不支持 Windows)


registerDoMC(cores = 5)
model <- train(y ~ ., data = training, method = "rf")

注意 OP 已编辑他的原始帖子。 OP 一开始就在 Windows 上运行。

编辑 - 一条评论太长

doParallel 不能拯救 caret 并行化。(但我可能是错的...请让我知道更多的反对票和 cmets)

1) 请在 Windows 上自己尝试一下...当我尝试使用 doParalell 时,它默认为顺序。 (我想知道它是否可以在其他人的 Windows 机器上运行)。


2) caret 使用 doMC。见here,

caret 利用 R 中的一种并行处理框架来做到这一点。 foreach 包允许使用多种不同的技术顺序或并行运行 R 代码,例如多核或 Rmpi​​ 包(有关可用选项的摘要和描述,请参见 Schmidberger 等人,2009 年)。有几个 R 包可以与 foreach 一起使用来实现这些技术,例如 doMC(用于多核)或 doMPI(用于 Rmpi​​)。

3) doParallel 简单地结合了doMCdoSNOW。见here。

doParallel 包是 doSNOW 和 doMC 的合并,就像并行是雪和多核的合并一样。

请注意,链接中接受答案的作者是 Steve Weston,他是 doParallel 包的作者之一。

4) doMC 派生 Windows 不支持的进程(Windows 仅支持 SNOW 和 SOCK 进程)参见here,再次Steve Weston

多核功能目前仅适用于支持 fork 系统调用(这意味着不支持 Windows)


我也这么认为,但caret ml parallel 建议不这样做,即他正在做同样的事情,而且它似乎在 Windows 上工作。 嗯...不确定。可能是该人在 Windows 10 see here 内安装的 Ubuntu 上运行。我也在我的系统上试过,但 train::caret 默认为顺序 好的。稍后我将通过doMC 在 Ubuntu 上运行它,以排除这是另一个问题。 这是错误的。 caret 完全能够使用其他 foreach 后端。 嗨@HongOoi,请看我编辑的答案(评论太长了)【参考方案2】:

您必须使用与您的集群类型相对应的 foreach 后端。如果您使用parallel::makeCluster 创建集群,则使用doParallel::registerDoParallel 注册它。

cl <- parallel::makeCluster(cores_2_use, outfile = "parallel_log2_linux.txt")


不确定我是否关注。这可能解释了我在 Linux 上遇到的第一个错误,然后我证明该错误已解决,但您显示的设置正是我显示的在 Windows 上产生序列化错误的设置。【参考方案3】:

我在另一台内核较少但代码设置相同的 Windows 10 机器上进行了尝试。但是,我使用了来自 Github 的 caret 的开发版本(通过 devtools::install_github('topepo/caret/pkg/caret') 安装)以及 R 3.4.1,问题无法重现。并行集群运行时没有出现以下代码问题。不幸的是,我无法访问原始的 Windows 7 工作站,以查看caret dev 版本和/或更新的 R 版本是否仍然存在问题。

cores_2_use <- floor(0.8 * detectCores())
cl <- makeCluster(cores_2_use, outfile = "parallel_log.txt")

glm_par <-
  microbenchmark(glm_par =
    train(default ~ .,
            data = benchmark_train_data,
            method = "glm",
            family = "binomial",
            metric = "ROC",
            trControl = ctrl),
    times = 5


#Unit: seconds
#    expr      min       lq     mean   median       uq      max neval
# glm_par 13.14082 13.25298 16.77678 13.64924 13.78132 30.05955     5


这是在一个内核上运行的相同代码(与上面的六个内核并行运行相反)- 本来预计并行设置的性能会更好。

#Unit: seconds
#      expr      min       lq     mean   median       uq      max neval
# glm_nopar 25.44122 25.52031 25.64818 25.53692 25.56496 26.17751     5


是的,尽管使用 6 个内核而不是 1 个内核,但它比非并行更快,尽管不是 6 倍。我还通过资源监视器检查了执行期间的 CPU 使用率,您可以看到所有 CPU 的使用率几乎达到峰值。我可以发布非并行时间tmr。

以上是关于插入符号训练二进制 glm 通过 doParallel 在并行集群上失败的主要内容,如果未能解决你的问题,请参考以下文章

R 插入符号保留样本和测试集 ROC

在 R 中使用插入符号训练模型的时机

在使用插入符号的 train() 使用公式训练的 randomForest 对象上使用 predict() 时出错

在 R 中使用插入符号进行训练后,如何在 ROC 下计算 ROC 和 AUC?

提高插入符号 (R) 中的模型训练速度
