terra 包在尝试运行并行操作时返回错误

Posted

技术标签:

【中文标题】terra 包在尝试运行并行操作时返回错误【英文标题】:terra package returns error when try to run parallel operations 【发布时间】:2021-07-30 09:46:51 【问题描述】:

我正在使用raster 包,我尝试切换到terra,但由于某些我不明白的原因,terra 在与包并行工作时无法重现raster 的相同操作比如snowfallfuture.apply。这是一个可重现的例子。

library(terra)
r <- rast()
r[] <- 1:ncell(r)
m <- rast()
m[] <- c(rep(1,ncell(m)/5),rep(2,ncell(m)/5),rep(3,ncell(m)/5),rep(4,ncell(m)/5),rep(5,ncell(m)/5))
ms <- separate(m,other=NA)
plot(ms)
mymask <- function(ind)
  tipo <- tipo_tav[ind]
  mask <- ms[[ind]]
  
  masked <-
    terra::mask(
      r,
      mask
    )
  
  richard <- function(x)
    k <-0.2
    v <-0.3
    a <-200
    y0 <-2
    y <- k/v*x*(1-((x/a)^v))+y0
    return(y)
  
  pred <- richard(masked)
  pred <- clamp(pred,lower=0)
  return(pred)

#the sequential usage works fine, faster than the `raster` counterpart
system.time(x <- mymask(1))#0.03

#when I try to run my function in parallel I receive an error
plan(multisession,workers=5)
system.time(pred_list <- future_lapply(1:5, FUN = mymask))

.External(list(name = "CppMethod__invoke_notvoid", address = , 中的错误: NULL 值作为符号地址。

如果我将rast 更改为raster 并将terra::mask 更改为raster::mask,则完全相同的代码运行良好。见下文:

library(raster)
r <- raster(r)
ms <- stack(ms)
mymask <- function(ind)
  tipo <- tipo_tav[ind]
  mask <- ms[[ind]]
  
  masked <-
    raster::mask(
      r,
      mask     
    )
  
  richard <- function(x)
    k <-0.2
    v <-0.3
    a <-200
    y0 <-2
    y <- k/v*x*(1-((x/a)^v))+y0
    return(y)
  
  pred <- richard(masked)
  pred <- clamp(pred,lower=0)
  return(pred)

#this works fine
system.time(x <- mymask(1))#0.06
#this works too
plan(multisession,workers=5)
system.time(pred_list <- future_lapply(1:5, FUN = mymask))#15.48

如果我使用 snowfall 而不是 future,则会出现相同的行为

library(snowfall)
sfInit(parallel = TRUE, cpus =5)
sfLibrary(terra)
sfExportAll()
system.time(pred_list <- sfLapply(1:5, fun = mymask))
sfStop()

这会返回与future_lapply 相同的错误 为什么会这样?我从未见过这样的错误。我希望利用terra 的更高速度,但我被卡住了。

【问题讨论】:

【参考方案1】:

无法序列化SpatRaster,您无法将其发送到并行计算节点。查看here 进行更多讨论。

相反,您可以 (a) 发送和接收文件名; (b) 并行化您提供给applapp 的自定义函数; (c) 使用cores=n 参数(如果可用,例如apppredict); (d) 使用类似wrap 的机制; (e) 发送一个文件名和一个矢量来制作一个 SpatExtent 来处理并从输出图块创建一个虚拟栅格(参见 ?vrt)。

例如,您可以使用这样的函数(选项“a”)

prich <- function(filein, fileout) 
    r <- rast(filein)
    richard <- function(x) 
        k <-0.2
        v <-0.3
        a <-200
        y0 <-2
        y <- k/v*x*(1-((x/a)^v))+y0
        y[y<0] <- 0
        return(y)
    
    x <- app(masked, richard, filename=fileout, overwrite=TRUE)
    return(TRUE)

我使用app,因为它对于大型栅格来说效率更高 --- 因为它可以避免使用 SpatRaster 为 10 个算术运算中的每一个编写临时文件。鉴于您想并行化这个相对简单的函数,我假设文件非常大。

或选项“c”:

richard <- function(x) 
    k <-0.2
    v <-0.3
    a <-200
    y0 <-2
    y <- k/v*x*(1-((x/a)^v))+y0
    y[y<0] <- 0
    return(y)
 
 x <- app(masked, richard, cores=12)

在这两种情况下,我都包含了掩蔽。您可以将它包含在选项“a”中,但 mask 是磁盘 I/O 密集型,而不是计算密集型,因此一步完成而不是并行执行可能同样有效。

有了wrap,你可以做这样的事情

f <- function(w) 
    x <- rast(w)
    y <- richard(x)
    wrap(y)


r <- rast(nrow=10, ncol=10, vals=1:100)
x <- f(wrap(r))
x <- rast(x)

f 将并行运行。这仅适用于小型栅格,但您可以在图块上并行化,我计划为此编写一个包装器以使其易于使用。

还会有更多,但不要屏住呼吸。

【讨论】:

以上是关于terra 包在尝试运行并行操作时返回错误的主要内容,如果未能解决你的问题,请参考以下文章

写入连接时出错 - 与 R 并行化 - Linux/Ubuntu 问题

C++ Fork Join 并行阻塞

如何启动并行协程并返回结果

有没有办法在分区的 spark 数据集上并行运行操作?

Spark RDD:如何共享数据以进行并行操作

C# 并行返回值