gbm 函数中的下标越界
Posted
技术标签:
【中文标题】gbm 函数中的下标越界【英文标题】:subscript out of bounds in gbm function 【发布时间】:2013-09-09 12:21:10 【问题描述】:我遇到了一个奇怪的问题。我已经在我的笔记本电脑上成功运行了这段代码,但是当我首先尝试在另一台机器上运行它时,我收到了这个警告
假设没有指定分布,假设 bernoulli ...,这是我所期望的,但后来我得到了这个错误:
Error in object$var.levels[[i]] : subscript out of bounds
library(gbm)
gbm.tmp <- gbm(subxy$presence ~ btyme + stsmi + styma + bathy,
data=subxy,
var.monotone=rep(0, length= 4), n.trees=2000, interaction.depth=3,
n.minobsinnode=10, shrinkage=0.01, bag.fraction=0.5, train.fraction=1,
verbose=F, cv.folds=10)
有人可以帮忙吗?数据结构完全一样,一样的代码,一样的R。我这里连下标都没用。
编辑:回溯()
6: predict.gbm(model, newdata = my.data, n.trees = best.iter.cv)
5: predict(model, newdata = my.data, n.trees = best.iter.cv)
4: predict(model, newdata = my.data, n.trees = best.iter.cv)
3: gbmCrossValPredictions(cv.models, cv.folds, cv.group, best.iter.cv,
distribution, data[i.train, ], y)
2: gbmCrossVal(cv.folds, nTrain, n.cores, class.stratify.cv, data,
x, y, offset, distribution, w, var.monotone, n.trees, interaction.depth,
n.minobsinnode, shrinkage, bag.fraction, var.names, response.name,
group)
1: gbm(subxy$presence ~ btyme + stsmi + styma + bathy, data = subxy,var.monotone = rep(0, length = 4), n.trees = 2000, interaction.depth = 3, n.minobsinnode = 10, shrinkage = 0.01, bag.fraction = 0.5, train.fraction = 1, verbose = F, cv.folds = 10)
是否因为我将保存的 R 工作区移动到另一台机器而有什么事情要做?
编辑 2:好的,所以我已经更新了代码正在运行的机器上的 gbm 包,现在我得到了同样的错误。所以在这一点上,我认为旧的 gbm 包可能没有这个检查,或者新版本有一些问题。我对gbm不太了解,不能说。
【问题讨论】:
(1) 它可能不是你问题的根源,但你的公式不应该使用$
;就做presence ~ ...
。 (2) 要检查的一件事是两台机器的 R 设置方式相同;例如检查stringsAsFactors
。
这个subxy
数据框在哪里?如果是您自己的数据,那么请您提供一些重现问题的示例数据。错误发生位置的traceback()
也很有用。
gbm
的默认分布是“bernoulli”,所以如果你有一个大于两个级别的结果,你不会期望抛出一个错误吗?
@joran 我都检查了,它们对问题没有影响。
【参考方案1】:
只是一种预感,因为我看不到你的数据,但我相信当你在测试集中存在可变级别而在训练集中不存在时会发生错误。
当您有一个具有大量级别的因子变量,或者一个级别的实例数量较少时,这很容易发生。
由于您使用的是 CV 折叠,因此其中一个循环上的保留集可能对训练数据具有外来水平。
我建议:
A) 使用 model.matrix() 对因子变量进行一次性编码
B) 继续设置不同的种子,直到获得没有出现此错误的 CV 拆分。
编辑:是的,通过该回溯,您的第三个 CV 坚持在其测试集中具有训练中不存在的因子水平。所以 predict 函数看到了一个外来值,不知道该怎么做。
编辑 2:这里有一个简单的例子来说明我所说的“不在测试集中的因素水平”
#Example data with low occurrences of a factor level:
set.seed(222)
data = data.frame(cbind( y = sample(0:1, 10, replace = TRUE), x1 = rnorm(10), x2 = as.factor(sample(0:10, 10, replace = TRUE))))
data$x2 = as.factor(data$x2)
data
y x1 x2
[1,] 1 -0.2468959 2
[2,] 0 -1.2155609 6
[3,] 0 1.5614051 1
[4,] 0 0.4273102 5
[5,] 1 -1.2010235 5
[6,] 1 1.0524585 8
[7,] 0 -1.3050636 6
[8,] 0 -0.6926076 4
[9,] 1 0.6026489 3
[10,] 0 -0.1977531 7
#CV fold. This splits a model to be trained on 80% of the data, then tests against the remaining 20%. This is a simpler version of what happens when you call gbm's CV fold.
CV_train_rows = sample(1:10, 8, replace = FALSE) ; CV_test_rows = setdiff(1:10, CV_train_rows)
CV_train = data[CV_train_rows,] ; CV_test = data[CV_test_rows,]
#build a model on the training...
CV_model = lm(y ~ ., data = CV_train)
summary(CV_model)
#note here: as the model has been built, it was only fed factor levels (3, 4, 5, 6, 7, 8) for variable x2
CV_test$x2
#in the test set, there are only levels 1 and 2.
#attempt to predict on the test set
predict(CV_model, CV_test)
Error in model.frame.default(Terms, newdata, na.action = na.action, xlev = object$xlevels) :
factor x2 has new levels 1, 2
【讨论】:
感谢您的回答,这有点过头了,我不确定我是否理解所有这些。为什么相同的功能可以在另一台计算机上使用?我从来没有得到这个错误。这有点奇怪。我不想修改 CV 参数。 如果有意义,请在答案中查看edit2。谢谢 所以我可以通过停用 CV fold gbm 来确认这一点。也许这是包的一个错误?它在以前的包中工作。任何高于 1 的 CV 数都会产生此错误。所以任何时候都可以使用。 嗨 dylanjf,你能分享一个使用 model.matrix 编码因子变量的例子吗?【参考方案2】:我遇到了同样的问题,并最终通过更改 gbm 包中名为 predict.gbm 的隐藏函数之一来解决它。此函数通过交叉验证从划分的训练集上预测训练集上的训练 gbm 对象的测试集。
问题是通过的测试集应该只有特征对应的列,所以你应该修改函数。
【讨论】:
"问题是通过的测试集应该只有特征对应的列,所以你应该修改函数。"谢谢!今天早上这让我绊倒了很长时间。以上是关于gbm 函数中的下标越界的主要内容,如果未能解决你的问题,请参考以下文章