较大数据集分类中的神经网络

Posted

技术标签:

【中文标题】较大数据集分类中的神经网络【英文标题】:Neural Network in Classification for comparatively large dataset 【发布时间】:2019-11-18 06:22:58 【问题描述】:

我正在尝试使用插入符号执行神经网络来解决分类问题。我的数据集有 94000 行和 5 个变量(1 个二进制因变量和 4 个自变量)。我已经清理了数据并转换了必要的变量。不存在缺失数据。数据是平衡的。我正在使用 nnet 使用插入符号进行交叉验证。现在我正在运行以下代码:

model <- train(Output ~ Var1 + Var2 + Var3 + Var4, 
                          method = "nnet", 
                          data = my_data, verbose = FALSE, 
                          trControl=trainControl(method='repeatedcv', 
                                                 number = 10, 
                                                 repeats = 5,
                                                 verboseIter=FALSE), 
                          tuneGrid=expand.grid(.size=c(0,1,2,5,10,15), 
                                               .decay=c(0,0.001,0.01,0.1)))

您能告诉我如何进一步改进我的模型吗?

其他细节: 1. 数据为金融市场数据。 2. 我将在预测后使用约登指数检查最佳阈值。因此,我将选择仅用于报告的最佳阈值。

由于我是神经网络的新手,我正在寻求使用 R 改进模型的建议,以及我可以使用什么样的调整或其他模型。

【问题讨论】:

【参考方案1】:

显然,您的问题相当广泛。以下是我在阅读代码和您发布的其他详细信息时想到的一些想法和观察。

    我认为评估神经元的零值是没有意义的 网络规模和权重衰减。 鉴于上述情况,您可以通过增加网格大小来改进模型,主要是针对神经网络大小。

评论您正在使用金融市场数据不会为读者增加额外的信息。你在使用时间序列吗?你在考虑什么样的变量?您是否将问题作为回归或分类来解决?

【讨论】:

以上是关于较大数据集分类中的神经网络的主要内容,如果未能解决你的问题,请参考以下文章