Scikit 学习系列拆分训练测试

Posted

技术标签:

【中文标题】Scikit 学习系列拆分训练测试【英文标题】:Scikit learn split train test for series 【发布时间】:2017-02-04 15:19:27 【问题描述】:

我有一个数据,其中包含按排序顺序排列的日期。

我想将给定的数据拆分为训练集和测试集。 但是,我必须以测试必须比训练集更新的方式拆分数据。

请看给定的例子:

假设我们有按日期排列的数据:

1, 2, 3, ..., n.

从 1 到 n 的数字代表天数。

我想将其分成 20% 的数据作为训练集和 80% 的数据作为测试集。

Good results:

1) train set = 1, 2, 3, ..., 20

   test set = 21, ..., 100


2) train set = 101, 102, ... 120

    test set = 121, ... 200

我的代码:

train_size = 0.2
train_dataframe, test_dataframe = cross_validation.train_test_split(features_dataframe, train_size=train_size)                          

train_dataframe = train_dataframe.sort(["date"])
test_dataframe = test_dataframe.sort(["date"])

不适合我!

有什么建议吗?

【问题讨论】:

【参考方案1】:

如果您坚持所有测试数据都比所有训练数据更新,那么只有一种方法可以实现所需的 20/80 拆分。

n = features_dataframe.shape[0]
train_size = 0.2

features_dataframe = features_dataframe.sort_values('date')
train_dataframe = features_dataframe.iloc[:int(n * train_size)]
test_dataframe = features_dataframe.iloc[int(n * train_size):]

而且它没有任何随机性。

【讨论】:

以上是关于Scikit 学习系列拆分训练测试的主要内容,如果未能解决你的问题,请参考以下文章

在训练测试拆分操作(scikit)后使数据平衡?

scikit-learn 中的分层训练/验证/测试拆分

没有 scikit-learn 的分层训练/验证/测试拆分

Python学习系列二十四scikit-learn库逻辑回归实现唯品会用户购买行为预测

本守则是啥意思? (训练测试拆分 Scikit Learn)

scikit learn 的训练测试拆分导致训练数据中只有一个唯一值的特征