使用 step_naomit 进行预测并使用 tidymodels 保留 ID

Posted

技术标签:

【中文标题】使用 step_naomit 进行预测并使用 tidymodels 保留 ID【英文标题】:Predict with step_naomit and retain ID using tidymodels 【发布时间】:2020-03-21 09:58:43 【问题描述】:

在使用随机森林模型进行预测以合并回原始数据帧时,我试图在行上保留一个 ID。我在配方中使用 step_naomit,它在我烘焙训练数据时删除了缺少数据的行,但也删除了测试数据中缺少数据的记录。不幸的是,我没有 ID 可以轻松知道哪些记录被删除,因此我可以准确地合并回预测。

我试图在原始数据中添加一个 ID 列,但烘焙会删除公式中未包含的任何变量(并且我不想在公式中包含 ID)。我还认为我可以保留原始表中的 row.names 以进行合并,但似乎 row.name 在烘焙时也会重置。

我意识到我可以在配方之前删除 NA 值来解决这个问题,但是配方中的 step_naomit 有什么意义呢?我还在 step_naomit 中尝试了 skip=TRUE,但随后在拟合模型时出现丢失数据的错误(仅适用于随机森林)。我觉得我在 tidymodels 中遗漏了一些可以让我在烘焙之前保留所有行的东西?

查看示例:


## R 3.6.1 ON WINDOWS 10 MACHINE

require(tidyverse)
require(tidymodels)
require(ranger)

set.seed(123)

temp <- iris %>%
    dplyr::mutate(Petal.Width = case_when(
        round(Sepal.Width) %% 2 == 0 ~ NA_real_, ## INTRODUCE NA VALUES
        TRUE ~ Petal.Width))

mySplit <- rsample::initial_split(temp, prop = 0.8)

myRecipe <- function(dataFrame) 
    recipes::recipe(Petal.Width ~ ., data = dataFrame) %>%
        step_naomit(all_numeric()) %>%
        prep(data = dataFrame)


myPred <- function(mySplit,myRecipe) 

    train_set <- training(mySplit)
    test_set <- testing(mySplit)

    train_prep <- myRecipe(train_set)

    analysis_processed <- bake(train_prep, new_data = train_set)

    model <- rand_forest(
            mode = "regression",
            mtry = 3,
            trees = 50) %>%
        set_engine("ranger", importance = 'impurity') %>%
        fit(Sepal.Width ~ ., data=analysis_processed)

    test_processed <- bake(train_prep, new_data = test_set)

    test_processed %>%
        bind_cols(myPrediction = unlist(predict(model,new_data=test_processed))) 



getPredictions <- myPred(mySplit,myRecipe)

nrow(getPredictions)

##  21 ROWS

max(as.numeric(row.names(getPredictions)))

##  21

nrow(testing(mySplit))

##  29 ROWS

max(as.numeric(row.names(testing(mySplit))))

##  150

【问题讨论】:

“我试图在原始数据中添加一个 ID 列,但是烘焙会删除公式中未包含的任何变量(并且我不想在公式中包含 ID)。”你检查recipe函数中的roles参数了吗?您可以使用该参数来指定配方中每个变量的作用(即 ID、权重、预测变量或响应)。更多详情:tidymodels.github.io/recipes/articles/Roles.html 【参考方案1】:

step_naomit() 配方规范中使用skip = TRUE,然后将配方包含在workflow 中可能是正确的解决方案。例如,

myRecipe <- recipe(Petal.Width ~ ., data = dataFrame) %>%
        step_naomit(all_numeric(), step = FALSE)`
# don't include the prep()

wflow <- workflow() %>% 
  add_model(model) %>% 
  add_recipe(myRecipe)

wflow_fit <- wflow %>% 
  fit(train_set)

preds <- predict(wflow_fit, new_data = (test_set))

【讨论】:

【参考方案2】:

为了能够跟踪删除了哪些观察,我们需要为原始数据集提供一个id 变量。

temp <- iris %>%
    dplyr::mutate(Petal.Width = case_when(
        round(Sepal.Width) %% 2 == 0 ~ NA_real_, ## INTRODUCE NA VALUES
        TRUE ~ Petal.Width),
        id = row_number()) #<<<<

然后我们使用update_role() 首先将其指定为“id 变量”,然后将其作为预测变量移除,这样它就不会成为建模过程的一部分。就是这样。其他一切都应该像以前一样工作。下面是完全更新的代码,#

require(tidyverse)
#> Loading required package: tidyverse
require(tidymodels)
#> Loading required package: tidymodels
#> Registered S3 method overwritten by 'xts':
#>   method     from
#>   as.zoo.xts zoo
#> ── Attaching packages ───────────────────── tidymodels 0.0.3 ──
#> ✔ broom     0.5.2     ✔ recipes   0.1.7
#> ✔ dials     0.0.3     ✔ rsample   0.0.5
#> ✔ infer     0.5.0     ✔ yardstick 0.0.4
#> ✔ parsnip   0.0.4
#> ── Conflicts ──────────────────────── tidymodels_conflicts() ──
#> ✖ scales::discard() masks purrr::discard()
#> ✖ dplyr::filter()   masks stats::filter()
#> ✖ recipes::fixed()  masks stringr::fixed()
#> ✖ dplyr::lag()      masks stats::lag()
#> ✖ dials::margin()   masks ggplot2::margin()
#> ✖ dials::offset()   masks stats::offset()
#> ✖ yardstick::spec() masks readr::spec()
#> ✖ recipes::step()   masks stats::step()
require(ranger)
#> Loading required package: ranger

set.seed(1234)

temp <- iris %>%
    dplyr::mutate(Petal.Width = case_when(
        round(Sepal.Width) %% 2 == 0 ~ NA_real_, ## INTRODUCE NA VALUES
        TRUE ~ Petal.Width),
        id = row_number()) #<<<<

mySplit <- rsample::initial_split(temp, prop = 0.8)

myRecipe <- function(dataFrame) 
    recipes::recipe(Petal.Width ~ ., data = dataFrame) %>%
        update_role(id, new_role = "id variable") %>%  #<<<<
        update_role(-id, new_role = 'predictor') %>%   #<<<<
        step_naomit(all_numeric()) %>%
        prep(data = dataFrame)


myPred <- function(mySplit,myRecipe) 

    train_set <- training(mySplit)
    test_set <- testing(mySplit)

    train_prep <- myRecipe(train_set)

    analysis_processed <- bake(train_prep, new_data = train_set)

    model <- rand_forest(
            mode = "regression",
            mtry = 3,
            trees = 50) %>%
        set_engine("ranger", importance = 'impurity') %>%
        fit(Sepal.Width ~ ., data=analysis_processed)

    test_processed <- bake(train_prep, new_data = test_set)

    test_processed %>%
        bind_cols(myPrediction = unlist(predict(model,new_data=test_processed))) 



getPredictions <- myPred(mySplit, myRecipe)

getPredictions
#> # A tibble: 23 x 7
#>    Sepal.Length Sepal.Width Petal.Length Petal.Width Species     id myPrediction
#>           <dbl>       <dbl>        <dbl>       <dbl> <fct>    <int>        <dbl>
#>  1          4.6         3.1          1.5         0.2 setosa       4         3.24
#>  2          4.3         3            1.1         0.1 setosa      14         3.04
#>  3          5.1         3.4          1.5         0.2 setosa      40         3.22
#>  4          5.9         3            4.2         1.5 versico…    62         2.98
#>  5          6.7         3.1          4.4         1.4 versico…    66         2.92
#>  6          6           2.9          4.5         1.5 versico…    79         3.03
#>  7          5.7         2.6          3.5         1   versico…    80         2.79
#>  8          6           2.7          5.1         1.6 versico…    84         3.12
#>  9          5.8         2.6          4           1.2 versico…    93         2.79
#> 10          6.2         2.9          4.3         1.3 versico…    98         2.88
#> # … with 13 more rows

# removed ids
setdiff(testing(mySplit)$id, getPredictions$id)
#> [1]   5  28  47  70  90 132

由reprex package (v0.3.0) 于 2019 年 11 月 26 日创建

【讨论】:

谢谢你,埃米尔。你能够回答我的问题。但是,我认为您可能想要更新您的答案以删除适合的 ID 变量。在我自己的代码上运行后,我意识到 id 变量仍然被合并到模型拟合中,并且在运行 model$fit$variable.importance 时显示为最重要的变量。

以上是关于使用 step_naomit 进行预测并使用 tidymodels 保留 ID的主要内容,如果未能解决你的问题,请参考以下文章

使用 LSTM 进行预测

使用 dplyr 进行多步预测并执行

R语言基于自定义函数构建xgboost模型并使用LIME解释器进行模型预测结果解释:基于训练数据以及模型构建LIME解释器解释多个iris数据样本的预测结果使用LIME解释器进行模型预测结果解释

R语言基于自定义函数构建xgboost模型并使用LIME解释器进行模型预测结果解释:基于训练数据以及模型构建LIME解释器解释一个iris数据样本的预测结果LIME解释器进行模型预测结果解释并可视化

python使用箱图法和业务规则进行异常数据处理并检查预测使用的数据特征是否有字段缺失的情况并补齐

温度预测 python | 使用 Python 可以使用机器学习模型进行温度预测