如何在 R 的并行方法中使用无效的记录器进行记录?

Posted

技术标签:

【中文标题】如何在 R 的并行方法中使用无效的记录器进行记录?【英文标题】:How to log using futile logger from within a parallel method in R? 【发布时间】:2014-01-22 16:26:19 【问题描述】:

我在 R 中使用无用的记录器进行记录。 我有一个在 R 中使用降雪实现的并行算法。并行进程的每个核心在记录器中记录一个中间输出。但是这个输出没有显示在记录器中?

我们可以在使用降雪的并行作业中使用无用的记录器进行记录吗?

添加它是如何完成的:

我的具体情况有点不同。我正在使用我创建的共享对象从 R 调用 C 函数。该函数是一个迭代算法,我需要每隔几次迭代记录一次输出。我有兴趣从 C 函数记录到无用的记录器。为什么是徒劳的记录器?因为这是 Web 应用程序的一部分,所以让用户会话的所有输出都采用一致的格式是有意义的。

这是我根据接受的答案遵循的一般方法。

# init script
# iter logger namespace global variable
assign("MCMC_LOGGER_NAMESPACE", "iter.logger", envir = .GlobalEnv)  

loginit <- function(logfile)  
  require('futile.logger')
  flog.layout(layout.simple, name = ITER_LOGGER_NAMESPACE)  
  flog.threshold(TRACE, name = ITER_LOGGER_NAMESPACE)
  flog.appender(appender.file(logfile), name = ITER_LOGGER_NAMESPACE)   
  NULL


parallel_funct_call_in_R <- function(required args)     
require('snowfall')  
sfSetMaxCPUs() 
sfInit(parallel = TRUE, cpus = NUM_CPU) 
sfLibrary(required libs)
sfExport(required vars including logger namespace variable ITER_LOGGER_NAMESPACE)
iterLoggers = sprintf(file.path(myloggingdir, 'iterativeLogger_%02d.log', fsep = .Platform$file.sep), seq_len(NUM_CPU))
sfClusterApply(iterLoggers, loginit)  
sfSource(required files)
estimates <- sfLapply(list_to_apply_over, func_callling_C_from_R, required args)
sfStop()  
return(estimates)


iterTrackNumFromC <- function(numvec)
# convert numvec to json and log using flog.info
# the logger namespace has already been registered in the individual cores
flog.info("%s", toJSON(numvec), name = ITER_LOGGER_NAMESPACE) 


func_callling_C_from_R <- function(args)
 load shared obh using dyn.load
estimates = .C("C_func", args, list(iterTrackNumFromC)) # can use .Call also I guess
return(estimates)

现在是 C 函数

void C_func(other args, char **R_loggerfunc) // R_loggerfunc is passed iterTrackNumFromC    
// do stuff
// call function that logs numeric values to futile.logger
logNumericVecInR();


void logNumericVecInR (char *Rfunc_logger, double *NumVec, int len_NumVec)        
    long nargs = 1;        
    void *arguments[1];
    arguments[0] = (double*)NumVec;    
    char *modes[1];
    modes[0] = "double";        
    long lengths[1];
    lengths[0] = len_NumVec;        
    char *results[1];
    //    void call_R(char *func, long nargs, void **arguments, char **modes, long *lengths, char **names, long nres, char **results)    
    call_R(Rfunc_logger, nargs, arguments, modes, lengths, (char**)0, (long)1, results);

希望这会有所帮助。如果 R 和 C 有更简单的方法来共享一个公共记录器,请告诉我。

【问题讨论】:

想展示一个可重复的小例子吗? @RomanLuštrik。我使用已接受答案中的想法添加了一个工作示例。如果你有更好的方法,请告诉我。 【参考方案1】:

从降雪程序中使用 futile.logger 包的一种简单方法是使用 sfInit slaveOutfile='' 选项,这样工作人员的输出就不会被重定向。

library(snowfall)
sfInit(parallel=TRUE, cpus=3, slaveOutfile='')
sfLibrary(futile.logger)
work <- function(i) 
  flog.info('Got task %d', i)
  i

sfLapply(1:10, work)
sfStop()

这是雪makeClusteroutfile=''选项的降雪界面。它可能无法与 Rgui 等 GUI 界面一起正常工作,具体取决于它们处理进程输出的方式,但它确实可以在使用 Rterm.exe 的 Windows 上工作。

我认为最好为每个工作人员指定不同的日志文件。这是一个例子:

library(snowfall)
nworkers <- 3
sfInit(parallel=TRUE, cpus=nworkers)

loginit <- function(logfile) 
  library(futile.logger)
  flog.appender(appender.file(logfile))
  NULL

sfClusterApply(sprintf('out_%02d.log', seq_len(nworkers)), loginit)

work <- function(i) 
  flog.info('Got task %d', i)
  i

sfLapply(1:10, work)
sfStop()

这避免了所有来自雪的额外输出,并将每个工作人员的日志消息放入一个单独的文件中,这样可以减少混乱。

【讨论】:

感谢@Steve Weston。这有很大帮助。我已经实现了你的想法。我希望有一个通用的记录器文件,但现在就足够了。

以上是关于如何在 R 的并行方法中使用无效的记录器进行记录?的主要内容,如果未能解决你的问题,请参考以下文章

记录mybatis-plus逻辑删除配置无效的坑

如何在通用应用程序中禁用任务并行库的 ETW EventSource?

打卡无效此记录已被更新会罚款吗

如何使用 LRTIM 和 RTRIM 查找无效记录并将其插入错误表?

在 Scala 中设计和并行化 Spark 应用程序的最佳方法 [关闭]

如何在 .net 核心中记录授权尝试