R代码中pivot_longer函数的问题

Posted

技术标签:

【中文标题】R代码中pivot_longer函数的问题【英文标题】:Problems with pivot_longer function in R code 【发布时间】:2022-01-22 08:57:53 【问题描述】:

我在使用 datas 中的 pivot_longer 函数时遇到问题。你能帮我解决吗?

在这个问题中正常工作:How to adjust error when I have 0 values for graph generation。但是,在上一个问题中,我没有使用DTT 列,在当前问题中是。

library(dplyr)

df1 <- structure(
  list(date1= c("2021-06-28","2021-06-28","2021-06-28"),
       date2 = c("2021-06-30","2021-06-30","2021-07-02"),
       DTT= c(NA,NA,"Hol"),
       Week= c("Wednesday","Wednesday","Friday"),
       Category = c("ABC","FDE","ABC"),
       DR1 = c(4,1,0),
       DR01 = c(4,1,0), DR02= c(4,2,0),DR03= c(9,5,0),
       DR04 = c(5,4,0),DR05 = c(5,4,0)),
  class = "data.frame", row.names = c(NA, -3L))


dmda<-"2021-07-02"
CategoryChosse<-"ABC"
DTest<-"Hol"

  x<-df1 %>% select(starts_with("DR0"))
  
  x<-cbind(df1, setNames(df1$DR1 - x, paste0(names(x), "_PV")))
  PV<-select(x, date2,Week, Category, DTT, DR1, ends_with("PV"))
  
  med<-PV %>%
    group_by(Category,Week,DTT) %>%
    summarize(across(ends_with("PV"), median))
  
  SPV<-df1%>%
    inner_join(med, by = c('Category', 'Week','DTT')) %>%
    mutate(across(matches("^DR0\\d+$"), ~.x + 
                    get(paste0(cur_column(), '_PV')),
                  .names = 'col_col_PV')) %>%
    select(date1:Category, DR01_DR01_PV:last_col())
  
  SPV<-data.frame(SPV)
  
  mat1 <- df1 %>%
    filter(date2 == dmda, Category == CategoryChosse, DTT==DTest) %>%
    select(starts_with("DR0")) %>%
    pivot_longer(cols = everything()) %>%
    arrange(desc(row_number())) %>%
    mutate(cs = cumsum(value)) %>%
    filter(cs == 0) %>%
    pull(name)
  
  (dropnames <- paste0(mat1,"_",mat1, "_PV"))
  
  SPV <- SPV %>%
    filter(date2 == dmda, Category == CategoryChosse, DTT==DTest) %>%
    select(-any_of(dropnames))
  
  if(length(grep("DR0", names(SPV))) == 0) 
    SPV[mat1] <- NA_real_
  
  
  datas <-SPV %>%
    filter(date2 == ymd(dmda)) %>%
    group_by(Category, DTT) %>%
    summarize(across(starts_with("DR0"), sum)) %>%
    pivot_longer(cols= -Category, names_pattern = "DR0(.+)", values_to = "val") %>%
    mutate(name = readr::parse_number(name))
  colnames(datas)[-1]<-c("Days","Numbers")

Error: Can't combine `DTT` <character> and `DR05` <double>.
Run `rlang::last_error()` to see where the error occurred.

【问题讨论】:

我认为在pivot_longer 中,您只需要包含“DRO”列,因为-Category 暗示所有其他列,并且有DTT 这是字符即`pivot_longer(cols= starts_with("DR0"), names_pattern = "DR0(.+)",跨度> 就是这样,非常感谢akrun!您可以以答案的形式留下它以便我接受吗?此外,我还有两个问题:colnames 更改后会是什么样子?如果我的DTTNA,则喜欢DTest。是DTest = "" 还是DTest = NA 还是DTest = "NA" 我发布了一个解决方案。请检查 是的,就是这样。关于我关于 DTest 的第二个问题?如果DTTNA,它会是什么样子?例如,对于 30/06,类别 ABC 让我测试一下 【参考方案1】:

pivot_longer 检查列类型,通过在cols 中指定-Category,它将选择所有剩余的列。但是,在 OP 的数据集中,除了其他 numeric 列('DR0')之外,还有一个character 列'DTT'。一个选项是删除“DTT”(%&gt;% select(-DTT) %&gt;% pivot_longer(..)并使用 OP 的代码或使用 cols = starts_with("DR0")

library(dplyr)
library(tidyr)
datas <- SPV %>%
    filter(date2 == ymd(dmda)) %>%
    group_by(Category, DTT) %>%
    summarize(across(starts_with("DR0"), sum), .groups = "drop") %>%
    pivot_longer(cols= starts_with("DR0"), names_pattern = "DR0(.+)", 
         values_to = "val") %>%
    mutate(name = readr::parse_number(name))

-输出

> head(datas)
# A tibble: 5 × 4
  Category DTT    name   val
  <chr>    <chr> <dbl> <dbl>
1 ABC      Hol       5    NA
2 ABC      Hol       4    NA
3 ABC      Hol       3    NA
4 ABC      Hol       2    NA
5 ABC      Hol       1    NA

关于列名的改变,这里有4列。所以,我们可能需要

colnames(datas)[-c(1, 2)] <- c("Days","Numbers")

【讨论】:

以上是关于R代码中pivot_longer函数的问题的主要内容,如果未能解决你的问题,请参考以下文章

R语言使用tidyr包的pivot_longer函数将dataframe从宽表转化为长表

R语言使用tidyr包的pivot_longer函数将dataframe数据从宽表变换为长表

R语言tidyr包pivot_longer函数pivot_wider函数数据表变换实战(长表到宽表宽表到长表)

R语言ggplot2可视化:应用pivot_longer函数将数据从宽格式转换为长格式为dataframe的每一列绘制密度图和直方图(堆叠)

R语言使用across函数一次性将多个数据列进行离散化(categorize):或者pivot_longer函数转化为长表对转化为长表的数值数据列进行离散化pivot_wider将数据转化为宽表

R语言配对图(pair plot)可视化:pivot_longer函数将宽格式的数据重塑为长格式并进行数据全连接(full join)可视化基本的配对图(pair plot)