如何实现任意数量的分类变量的分层K折叠分裂？

Question

我有一个表格的数据框，df：

    cat_var_1    cat_var_2     num_var_1
0    Orange       Monkey         34
1    Banana        Cat           56
2    Orange        Dog           22
3    Banana       Monkey          6
..

假设数据集中cat_var_1的可能值具有比率 - ['Orange'：0.6，'Banana'：0.4]并且cat_var_2的可能值具有比率['Monkey'：0.2，'Cat'：0.7，'Dog '：0.1]。

如何将数据拆分为训练集，测试集和验证集（60:20:20分割），以保持分类变量的比例？实际上，这些变量可以是任意数量，而不仅仅是两个。而且，显然，在实践中可能永远不会达到确切的比例，但我们希望它尽可能接近。

我已经从这里描述的sklearn中查看了StratifiedKFold方法：how to split a dataset into training and validation set keeping ratio between classes?但这仅限于仅根据一个分类变量进行评估。

此外，如果您能提供所实现解决方案的复杂性，我将不胜感激。