如何将数据集 (csv) 拆分为训练和测试数据

Posted

技术标签:

【中文标题】如何将数据集 (csv) 拆分为训练和测试数据【英文标题】:How to split a dataset (csv) into training and test data 【发布时间】:2019-06-30 20:11:12 【问题描述】:

如果其中没有因变量,如何将数据集 (csv) 拆分为 Python 编程语言中的训练和测试数据

我目前从事的项目是基于机器学习的,数据集不包含任何依赖数据。以下代码仅在数据集包含依赖数据时才有效 -

从 sklearn.model_selection 导入 train_test_split xTrain, xTest, yTrain, yTest = train_test_split(x, y, test_size = 0.2, random_state = 0)

我希望在没有任何 'y' 变量的情况下发生拆分, 有可能吗?

【问题讨论】:

【参考方案1】:

有两种“随机”分布。 1) 100% 随机 2)“随机”但“平等”的数据分布(即相同的手段/规范)

要回答您的问题,我首先建议使用一个包来管理您的数据框(即 Pandas)

查看链接了解信息: https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.sample.html

所以,如果你想获得 DataFrame 的随机 50% 样本并替换:

 df.sample(frac=0.5, replace=True, random_state=1)

【讨论】:

我如何将另外 50% 的数据帧存储在另一个变量中

以上是关于如何将数据集 (csv) 拆分为训练和测试数据的主要内容,如果未能解决你的问题,请参考以下文章

如何从 .csv 文件中拆分数据集以进行训练和测试?

如何将训练数据集拆分为训练,验证和测试数据集?

R:如何将数据框拆分为训练集、验证集和测试集?

如何在 TensorFlow 中使用我自己的数据将图像拆分为测试和训练集

如何在不拆分数据帧的情况下传递不同的数据集进行训练和测试。 (Python)?

将图像数组和标签数据帧拆分为训练、测试和验证集