如何将数据集 (csv) 拆分为训练和测试数据
Posted
技术标签:
【中文标题】如何将数据集 (csv) 拆分为训练和测试数据【英文标题】:How to split a dataset (csv) into training and test data 【发布时间】:2019-06-30 20:11:12 【问题描述】:如果其中没有因变量,如何将数据集 (csv) 拆分为 Python 编程语言中的训练和测试数据
我目前从事的项目是基于机器学习的,数据集不包含任何依赖数据。以下代码仅在数据集包含依赖数据时才有效 -
从 sklearn.model_selection 导入 train_test_split xTrain, xTest, yTrain, yTest = train_test_split(x, y, test_size = 0.2, random_state = 0)
我希望在没有任何 'y' 变量的情况下发生拆分, 有可能吗?
【问题讨论】:
【参考方案1】:有两种“随机”分布。 1) 100% 随机 2)“随机”但“平等”的数据分布(即相同的手段/规范)
要回答您的问题,我首先建议使用一个包来管理您的数据框(即 Pandas)
查看链接了解信息: https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.sample.html
所以,如果你想获得 DataFrame 的随机 50% 样本并替换:
df.sample(frac=0.5, replace=True, random_state=1)
【讨论】:
我如何将另外 50% 的数据帧存储在另一个变量中以上是关于如何将数据集 (csv) 拆分为训练和测试数据的主要内容,如果未能解决你的问题,请参考以下文章
如何在 TensorFlow 中使用我自己的数据将图像拆分为测试和训练集