在循环中加速R过滤

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了在循环中加速R过滤相关的知识,希望对你有一定的参考价值。

我正在运行一个针对~1m记录的脚本,该记录在数据集中每天获得一个聚合并将其绑定到一个完整的数据集,这需要很长时间。每个循环中90%的时间都花在filter()部分中。

有什么方法可以加快速度吗?

for (i in seq_along(date_range)){    
  todays_results <- state_change %>% filter(state_date <= date_range[i] & date_range[i] <= next_state_dt)
  todays_results <- todays_results %>% group_by(state_date, marketing_category) %>% count()

  daily_state_counts <- rbind(daily_state_counts, todays_results)  
}

这是一个数据样本

 contact_id      state_date marketing_category next_state_dt next_mc  
   <fct>           <date>     <fct>              <date>        <fct>    
 1 003U000000Dyl6Z 2014-01-07 dormant            NA            NA       
 2 003U000000DylwT 2014-01-07 dormant            NA            NA       
 3 0030P00001ypDpt 2014-01-07 dormant            2014-02-12    recruiter
 4 0030P00001ypFZW 2014-01-07 dormant            2014-07-30    recruiter
 5 003U000000Io07V 2014-01-07 dormant            2017-02-13    recruiter
 6 0030P00001ypE7S 2014-01-07 recruiter          2015-07-08    dormant  
 7 0030P00001yOP1K 2014-01-07 dormant            2014-05-15    recruiter
 8 003U000000LNi2C 2014-01-07 dormant            NA            NA       
 9 003U000000DyjAb 2014-01-07 dormant            2014-11-20    recruiter
10 003U000001Z6yb6 2014-01-07 dormant            2016-01-15    recruiter
11 003U000000Oc9xR 2014-01-07 dormant            2015-10-21    inactive
答案

避免生长物体的简单方法是使用lapply()然后使用do.call()

尝试

lapply(seq_along(date_range), function(i) {    
  state_change %>% 
    filter(state_date <= date_range[i] & date_range[i] <= next_state_dt) %>% 
    group_by(state_date, marketing_category) %>% 
    count()
}) %>%
  do.call("rbind", .)

以上是关于在循环中加速R过滤的主要内容,如果未能解决你的问题,请参考以下文章

如何加速R中的循环计算循环

在 R/sparkR 中加速大数据的 udf

常用python日期日志获取内容循环的代码片段

加速R应用于数据帧

使用 for 循环和过滤器优化代码

使用从循环内的代码片段中提取的函数避免代码冗余/计算开销