如何按百分比将 CSV 数据集拆分为训练集和测试集,并将拆分后的数据集与 pandas 一起保存到本地文件夹中? [复制]

Posted

技术标签:

【中文标题】如何按百分比将 CSV 数据集拆分为训练集和测试集,并将拆分后的数据集与 pandas 一起保存到本地文件夹中? [复制]【英文标题】:How to split CSV dataset into training and testing set by percentage and save the splitted dataset into local folder with pandas? [duplicate] 【发布时间】:2020-06-22 09:53:55 【问题描述】:

我有一个大型 CSV 数据集,需要将训练集和测试集分别拆分为 77% 和 33%。最后我想访问本地机器中的每个文件。

【问题讨论】:

【参考方案1】:

导入需要的库

import math

整个数据集

df = pd.read_csv('CTU.csv')
total_size=len(df)
train_size=math.floor(0.77*total_size)

训练数据集和测试数据集

train=df.head(train_size)
test=df.tail(len(df) -train_size)

保存文件

train.to_csv('train.csv')
test.to_csv('test.csv')

【讨论】:

以上是关于如何按百分比将 CSV 数据集拆分为训练集和测试集,并将拆分后的数据集与 pandas 一起保存到本地文件夹中? [复制]的主要内容,如果未能解决你的问题,请参考以下文章

如何将稀疏矩阵拆分为训练集和测试集?

如何从 .csv 文件中拆分数据集以进行训练和测试?

随机切分csv训练集和测试集

Scikit 学习系列拆分训练测试

如何将数据集 (csv) 拆分为训练和测试数据

试图将我的数据框拆分为具有代表性的训练集和测试集