有人可以解释为啥我们在将数据拆分为训练和测试时使用 random_state 吗? [复制]

Posted

技术标签:

【中文标题】有人可以解释为啥我们在将数据拆分为训练和测试时使用 random_state 吗? [复制]【英文标题】:Can someone explain why we use random_state when we split the data into training and testing? [duplicate]有人可以解释为什么我们在将数据拆分为训练和测试时使用 random_state 吗? [复制] 【发布时间】:2019-12-20 11:46:26 【问题描述】:

我刚刚开始在机器学习中构建模型,我想知道为什么我们在拆分数据时要创建一个 random_state 变量。

【问题讨论】:

【参考方案1】:

它保存了拆分的方式。如果您要使用相同的数据和相同的随机状态,它将产生相同的训练测试拆分。如果您想在相同的数据上训练两个以上的模型并比较它们,这很有用。使用相同的数据和相同的随机分割将确保模型在相同的数据上进行训练,从而可以对性能进行逐个比较

【讨论】:

谢谢。就这样把事情搞清楚了。也许一旦我继续构建和学习更多......我会更好地理解它。

以上是关于有人可以解释为啥我们在将数据拆分为训练和测试时使用 random_state 吗? [复制]的主要内容,如果未能解决你的问题,请参考以下文章

您是不是对训练和测试数据分别应用最小最大缩放?

为啥 sklearn 的训练/测试拆分加上 PCA 会使我的标签不正确?

使用 tensorflow 将数据集拆分为训练和测试

将主数据目录拆分为训练/验证/测试集

如何将训练数据集拆分为训练,验证和测试数据集?

如何在不使用和拆分测试集的情况下将我的数据集拆分为训练和验证?