是否会导致过度拟合/维度诅咒

Posted

技术标签:

【中文标题】是否会导致过度拟合/维度诅咒【英文标题】:Will it lead to Overfitting / Curse of Dimensionality 【发布时间】:2020-02-17 10:20:48 【问题描述】:

数据集包含: 15000 次观察/行 3000 个特征/列

我可以在这些数据集上训练机器学习模型吗

【问题讨论】:

很多特征并不总是意味着会有过拟合。但是,如果您的数据中存在多重共线性,那肯定会导致过度拟合。因此,仅通过查看数据的维度是无法判断的。 有 15000 个唯一 ID,每个 ID 有一个事务 Features.i-eID1 有 10 个事务。每个事务有 30 个特性。所以我创建了一个包含 10*30 的单行 - > 300 列/功能。 类似地,ID2 有 100 个事务,每个事务有 30 个参数。所以我创建了一个包含 3000 个特征的 ID2。 找到的任何 ID 的最大事务数为 100 。因此 100*30 ->3000 个特征 欢迎来到SO,这是关于具体编码的问题;你的问题太宽泛了,请花点时间阅读How to Ask 和What topics can I ask about here?。另外,cmets 不适合添加此类信息 - 请改为编辑和更新您的帖子。 【参考方案1】:

是的,您可以应用 ML 模型,但在理解您的问题陈述之前,您可以了解数据集中所有可用的特征名称。如果您有大数据集,请尝试将其转换为 2 个集群,或者使用一个小数据集来分析您的数据所说的内容。 这就是为什么人口和抽样得到实际应用的原因。

您必须检查训练数据集和测试数据集的准确性是否应该相同,如果不是,那么您的模型正在记忆而不是学习,这里机器学习中的正则化出现了。

【讨论】:

【参考方案2】:

根据您提供的信息,没有人可以回答这个问题。最简单的方法是以交叉验证的形式运行健全性检查。您的模型在看不见的数据上表现良好吗?如果是这样,它可能不是过拟合。如果没有,请检查模型在训练数据上的表现是否良好。在训练数据上表现良好但在未见数据上表现良好的模型是模型过度拟合的定义。

【讨论】:

以上是关于是否会导致过度拟合/维度诅咒的主要内容,如果未能解决你的问题,请参考以下文章

深度学习—过拟合问题

什么是机器学习中的过拟合和噪声?

斯坦福2014机器学习笔记五----正则化

如何测试过度拟合的随机森林回归模型?

过拟合问题

正则化详解