根据分类列拆分训练和测试集

Question

我有一个包含大约25000行和32列的数据框。我想将此数据集分为训练和测试测试（80/20）。但是，某些列是1热编码的。现在，当分割数据时，我希望将每个1-hot编码列的相同比例放入训练集中。

col_1     col_2   ..  col_31    col_32
  1          0         0         0
  1          0         0         0
...
  0          0         1         0
  0          0         1         0

因此，在训练集中，应该有80％的行，其中每一列等于1。我从Sci-kit学习中了解了不同的拆分方法，但是找不到能够满足我需要的拆分方法。有没有人提供解决方案或者可以帮助我的人？