监督机器学习:数据点数量和变量之间的关系

Posted

技术标签:

【中文标题】监督机器学习:数据点数量和变量之间的关系【英文标题】:supervised machine learning: relationship between number of data points and variables 【发布时间】:2020-06-25 18:11:28 【问题描述】:

说吧。我们有一个用于监督机器学习的数据集(.csv 格式)。它有 60 个数据点(数据行),每个数据点有 100 个变量。

我使用来自 60 个数据点的所有 100 个变量来训练机器学习模型是否有意义?对我来说,这似乎在数学上是错误的。就像我求解一个有 100 个变量但只有 60 个方程的方程组一样?

在一个数据集中,如果我们有 n 个变量,那么训练机器学习模型所需的最少数据点数是多少?

对此有任何统计理论吗?

非常感谢。

【问题讨论】:

【参考方案1】:

回答你的第一个问题,你是对的,试图概括一个有 100 个特征但只有 60 个示例的模型是没有意义的。

Vladimir Vapnik 在“统计学习理论”中广泛解释了统计原因。我真的不建议去阅读所有那本书,这是一本很大的书和很多数学,而且没有太多的例子。但是你需要知道的一点是什么叫做Vapnik Chervonenkis dimension,或者大多数时候,它被称为VC维度

但长话短说,在维度大于训练样本数量的情况下,你得到的不是泛化,而是过拟合

【讨论】:

非常感谢。真的很有帮助。

以上是关于监督机器学习:数据点数量和变量之间的关系的主要内容,如果未能解决你的问题,请参考以下文章

吴恩达机器学习学习笔记——2.1单变量线性回归算法

吴恩达机器学习学习笔记——1.5无监督学习

机器学习10贝叶斯

机器学习10贝叶斯

机器学习1-概述

[Deep-Learning-with-Python]机器学习基础