监督机器学习:数据点数量和变量之间的关系
Posted
技术标签:
【中文标题】监督机器学习:数据点数量和变量之间的关系【英文标题】:supervised machine learning: relationship between number of data points and variables 【发布时间】:2020-06-25 18:11:28 【问题描述】:说吧。我们有一个用于监督机器学习的数据集(.csv 格式)。它有 60 个数据点(数据行),每个数据点有 100 个变量。
我使用来自 60 个数据点的所有 100 个变量来训练机器学习模型是否有意义?对我来说,这似乎在数学上是错误的。就像我求解一个有 100 个变量但只有 60 个方程的方程组一样?
在一个数据集中,如果我们有 n 个变量,那么训练机器学习模型所需的最少数据点数是多少?
对此有任何统计理论吗?
非常感谢。
【问题讨论】:
【参考方案1】:回答你的第一个问题,你是对的,试图概括一个有 100 个特征但只有 60 个示例的模型是没有意义的。
Vladimir Vapnik 在“统计学习理论”中广泛解释了统计原因。我真的不建议去阅读所有那本书,这是一本很大的书和很多数学,而且没有太多的例子。但是你需要知道的一点是什么叫做Vapnik Chervonenkis dimension,或者大多数时候,它被称为VC维度。
但长话短说,在维度大于训练样本数量的情况下,你得到的不是泛化,而是过拟合
【讨论】:
非常感谢。真的很有帮助。以上是关于监督机器学习:数据点数量和变量之间的关系的主要内容,如果未能解决你的问题,请参考以下文章