监督机器学习：数据点数量和变量之间的关系

Posted 2023-03-12

技术标签:

【中文标题】监督机器学习：数据点数量和变量之间的关系【英文标题】：supervised machine learning: relationship between number of data points and variables 【发布时间】：2020-06-25 18:11:28 【问题描述】：

说吧。我们有一个用于监督机器学习的数据集（.csv 格式）。它有 60 个数据点（数据行），每个数据点有 100 个变量。

我使用来自 60 个数据点的所有 100 个变量来训练机器学习模型是否有意义？对我来说，这似乎在数学上是错误的。就像我求解一个有 100 个变量但只有 60 个方程的方程组一样？

在一个数据集中，如果我们有 n 个变量，那么训练机器学习模型所需的最少数据点数是多少？

对此有任何统计理论吗？

非常感谢。

【问题讨论】：

【参考方案1】：

回答你的第一个问题，你是对的，试图概括一个有 100 个特征但只有 60 个示例的模型是没有意义的。

Vladimir Vapnik 在“统计学习理论”中广泛解释了统计原因。我真的不建议去阅读所有那本书，这是一本很大的书和很多数学，而且没有太多的例子。但是你需要知道的一点是什么叫做Vapnik Chervonenkis dimension，或者大多数时候，它被称为VC维度。

但长话短说，在维度大于训练样本数量的情况下，你得到的不是泛化，而是过拟合

【讨论】：

非常感谢。真的很有帮助。