scikit-learn train_test_split 中与平台无关的随机状态

Posted

技术标签:

【中文标题】scikit-learn train_test_split 中与平台无关的随机状态【英文标题】:Platform-independent random state in scikit-learn train_test_split 【发布时间】:2021-07-02 22:43:19 【问题描述】:

在使用 scikit-learn 拆分训练/测试数据集时是否设置特定的随机种子 (random_state) 会产生相同的随机数生成器初始化(即,产生相同的伪随机数)在不同平台上 - 例如,通过不同的云计算实例?

谢谢!

【问题讨论】:

afaik 它使用 numpy,所以 ***.com/questions/40676205/… 【参考方案1】:

只要random_state 在所有平台上都相等,并且它们都运行相同版本的 numpy,您应该得到完全相同的拆分。

由于random_state 是一个numpy 实例,我认为scikit-learn 的所有伪随机数生成器都被冻结了,因为numpy 冻结了RandomState

您可以查看random_state here 的文档,您可以看到numpy.random.RandomState。可以查看numpy的兼容性保证here。

【讨论】:

以上是关于scikit-learn train_test_split 中与平台无关的随机状态的主要内容,如果未能解决你的问题,请参考以下文章

Sklearn 速查

无法安装 scikit-learn

scikit-learn学习基础知识四

[机器学习与scikit-learn-3]:scikit-learn模型地图与模型选择

scikit-learn:如何使用拟合概率模型?

使用 yml 环境获取 scikit-learn 版本警告