为啥我在回归摘要中丢失了分类数据?
Posted
技术标签:
【中文标题】为啥我在回归摘要中丢失了分类数据?【英文标题】:Why am I losing categorical data in my regression summary?为什么我在回归摘要中丢失了分类数据? 【发布时间】:2021-07-22 08:46:07 【问题描述】:box <- read.csv("BlackBoxtrainApril22.csv")
#Change the 2 categorical variables into factors
box$SOUND <- as.factor(box$SOUND)
box$SWITCH <- as.factor(box$SWITCH)
#divide training and testing data
train <- box[1:12000,]
test <- box[12001:18048,]
library(nnet)
require(nnet)
multinom_model <- multinom(SOUND ~ ., data=box)
summary(multinom_model)
下面是dput(head(box))
的一些输出,看看数据是什么样子的:
structure(list(ID = c(86623L, 57936L, 54301L, 2678L, 65827L, 22420L), INPUT1 = c(30L, 87L, 16L, 64L, 33L, 5L), INPUT2 = c(31L, 76L, 33L, 77L, 72L, 50L), INPUT3 = c(72L, 31L, 87L, 91L, 53L, 26L), INPUT4 = c(29L, 79L, 41L, 59L, 66L, 50L), SWITCH = c("Low", "Low", "Low", "Minimum", "High", "High"), SOUND = c("Gargle", "Tick", "Tick", "Beep", "Beep", "Gargle")), row.names = c(NA, 6L), class = "data.frame")
本质上,我正在尝试使用数字和分类数据的组合来预测分类变量。
这是我的代码。当我做摘要时,我丢失了SWITCH
类别之一和SOUND
类别之一。
我认为这与引用变量有关,但我不确定。
【问题讨论】:
欢迎来到 SO,AriMorrison!意识到我们不知道数据中有什么,所以我们根本不可能提供帮助。请通过发布dput(head(box))
的输出来提供数据样本;如果有很多列,那么可能是dput(box[1:10,1:5])
或可以很好地代表数据的行和列的某些特定子集。请参阅 ***.com/q/5963269、minimal reproducible example 和 ***.com/tags/r/info,了解以可重复方式提问的好例子。
谢谢。这是我第一次在 SO 上发帖,所以对此表示歉意。这是 dput(head(box)) 的输出: structure(list(ID = c(86623L, 57936L, 54301L, 2678L, 65827L, 22420L), INPUT1 = c(30L, 87L, 16L, 64L, 33L, 5L), INPUT2 = c(31L, 76L, 33L, 77L, 72L, 50L), INPUT3 = c(72L, 31L, 87L, 91L, 53L, 26L), INPUT4 = c(29L, 79L, 41L, 59L, 66L, 50L) , SWITCH = c("Low", "Low", "Low", "Minimum", "High", "High"), SOUND = c("Gargle", "Tick", "Tick", "Beep", "哔", "漱口")), row.names = c(NA, 6L), class= "data.frame")
(请edit把你的问题放在那里,不要在评论中发表。谢谢!)
【参考方案1】:
您对参考类别是正确的。当您在模型中包含分类/因子变量时,始终排除变量的一个类别并用作参考类别。您确实在输出中看到的类别的估计值参考了被排除的类别。例如,如果您有一个包含“红色”、“蓝色”和“绿色”类别的因子变量,并且“红色”是参考类别,那么“蓝色”和“绿色”的模型估计值将是“蓝色” " 分别与 "red" 和 "green" 与 "red"。
【讨论】:
这应该是一个常见问题解答...有人知道如何轻松找到合适的重复项吗?以上是关于为啥我在回归摘要中丢失了分类数据?的主要内容,如果未能解决你的问题,请参考以下文章
OneHotEncoding 丢失了 Lasso 回归的列标识
为啥岭回归和套索回归分类器需要 random_state? [关闭]
机器学习数据预处理之缺失值:预测填充(回归模型填充分类模型填充)