对多个 data.tables 执行多个操作

Posted

技术标签:

【中文标题】对多个 data.tables 执行多个操作【英文标题】:Performing multiple operations on multiple data.tables 【发布时间】:2022-01-10 16:31:12 【问题描述】:

我创建了 30 个表。它们的名称结构如下: mdl_(race)_(工资四分位)。 (race) 是以下之一:白人、黑人、西班牙裔、亚洲人、其他人或所有。 (工资四分位数)是以下之一:Q1、Q2、Q3、Q4 和 allQ。 因为我有 6 个种族类别和 5 个工资四分位数,所以我有 6*5 = 30 个对象!

例如:线性模型,仅包括工资分布第一四分位数中的西班牙裔 => mdl_hispanics_Q1 例如:包含所有种族和所有工资四分位数的线性模型 => mdl_all_allQ

所有表格的格式都相同,当然具有不同的值:

          Variables     Estimate   Std. Error    t value      Pr(>|t|)
 1:       Intercept 37.231178895 9.486380e-02 392.469814  0.000000e+00
 2:         forborn -0.612941167 5.174224e-02 -11.846051  2.300944e-32
 3:          female -3.238655089 4.797890e-02 -67.501655  0.000000e+00
 4:        numchild  0.583390602 2.239027e-02  26.055543 1.841656e-149
 5: numchild_female  0.371351058 9.086739e-02   4.086736  4.376191e-05
 6:              hs  0.173864095 9.180975e-02   1.893743  5.826025e-02
 7:         somecol  0.595612050 9.407851e-02   6.331011  2.439689e-10
 8:         college  1.593917949 9.929766e-02  16.051918  5.923264e-58
 9:        advanced  0.171443556 1.983952e-03  86.415175  0.000000e+00
10:              rw -0.001207904 1.460021e-05 -82.731964  0.000000e+00
11:      rw_squared -0.954029880 3.252520e-02 -29.332024 8.456547e-189

我想要做的是获得一个具有 30 个值的数字向量,其中每个值是变量“forborn”的估计值,如果其统计显着性 Pr(>|t|)

【问题讨论】:

作为初学者,非常感谢您的帮助。这对你来说似乎是一项简单的任务,但对我来说却是一项不朽的任务! data.table 包中有一个名为tables() 的函数,它汇总了所有现有的data.tables-您可以将其与mget 一起使用 以这种方式使用 p 值并不代表良好的统计实践。 @FrankHarrell,我知道。但是,我这样做更多是为了作为编码练习 【参考方案1】:

这可能被认为是一种更好的方法,如果 p-valueforborn 的 Estimate 向量

rbindlist(lapply(ls(pattern="mdl_"),get))[
  Variables=="forborn",fifelse(`Pr(>|t|)`<0.1,Estimate,0)
  ]

注意:如果您需要对象的更多特异性,只需调整 ls() 中的 pattern 参数

【讨论】:

【参考方案2】:

您可以尝试mget 迭代数据帧,然后使用sapply 从其中获取数据。

编辑,更改数据框名称以匹配您的描述。

ls()
#[1] "mdl_hispanics_..."  "mdl_blacks_..." etc.

as.vector( sapply( mget( 
  grep("mdl_.*[whites|blacks|hispanics|asians|others|all]", 
  ls(), value=T) ), function(x) 
  ifelse( x[x$Variables == "forborn","Pr(>|t|)"] < 0.1,
          x[x$Variables == "forborn","Pr(>|t|)"], 0) ) )
#[1] 2.300944e-32 2.300944e-32 0.000000e+00

【讨论】:

【参考方案3】:

编写一个函数,以 p 值为条件提取列 Estimate,并将 lapply 提取到列表中。

library(data.table)

fextrac <- function(x)
  y <- x[, Estimate := ifelse(`Pr(>|t|)` < 0.1, Estimate, 0)][["Estimate"]]
  y[x$Variables == "forborn"]


Estimates_list <- sapply(dt_list, fextrac)
Estimates_list
#[1] -0.6129412 -0.6129412

测试数据

dt1 <- read.table(text = "
         Variables     Estimate   'Std. Error'    't value'      'Pr(>|t|)'
 1:       Intercept 37.231178895 9.486380e-02 392.469814  0.000000e+00
 2:         forborn -0.612941167 5.174224e-02 -11.846051  2.300944e-32
 3:          female -3.238655089 4.797890e-02 -67.501655  0.000000e+00
 4:        numchild  0.583390602 2.239027e-02  26.055543 1.841656e-149
 5: numchild_female  0.371351058 9.086739e-02   4.086736  4.376191e-05
 6:              hs  0.173864095 9.180975e-02   1.893743  5.826025e-02
 7:         somecol  0.595612050 9.407851e-02   6.331011  2.439689e-10
 8:         college  1.593917949 9.929766e-02  16.051918  5.923264e-58
 9:        advanced  0.171443556 1.983952e-03  86.415175  0.000000e+00
10:              rw -0.001207904 1.460021e-05 -82.731964  0.000000e+00
11:      rw_squared -0.954029880 3.252520e-02 -29.332024 8.456547e-189
", header = TRUE, check.names = FALSE)

set.seed(2021)
dt2 <- dt1
dt2$`Pr(>|t|)`[sample(nrow(dt2), nrow(dt2)/3)] <- 0.1

setDT(dt1)
setDT(dt2)
dt_list <- list(dt1, dt2)

【讨论】:

以上是关于对多个 data.tables 执行多个操作的主要内容,如果未能解决你的问题,请参考以下文章

R从函数返回多个data.tables

给出多个输入,创建标准data.table列

如何对 Streaming DataFrame 执行多个时间窗口操作?

对多个文本文件执行相同的操作

对 Oracle 数据库列执行多个替换操作

由于有了操作系统,同一瞬间可以有多个程序执行对不对?