数据分区中的类标签

Posted

技术标签:

【中文标题】数据分区中的类标签【英文标题】:Class labels in data partitions 【发布时间】:2013-12-24 14:04:23 【问题描述】:

假设有人将数据划分为训练/验证/测试集以进一步应用某种分类算法,而训练集恰好不包含完整数据集中存在的所有类标签 - 比如说一些带有标签的记录“x”只出现在验证集中,而不出现在训练中。

这是有效的分区吗?以上可能会产生许多后果,例如混淆矩阵将不再是正方形,而且在算法期间我们可能会评估错误,这会受到训练集中看不见的标签的影响。

第二个问题是:分区算法是否通常会考虑上述问题并以训练集具有所有现有标签的方式对数据进行分区?

【问题讨论】:

【参考方案1】:

这就是分层抽样应该解决的问题。

https://en.wikipedia.org/wiki/Stratified_sampling

【讨论】:

以上是关于数据分区中的类标签的主要内容,如果未能解决你的问题,请参考以下文章

linux安装过程中硬盘分区工具是啥

使用自定义分区器对 Pyspark 中的数据框进行分区

SQL Server 2005中的分区表:如何添加查询修改分区表中的数据

多维数据集分区:DSV 设计器中的事实表只是多维数据集分区之一吗?

spark浅谈:RDD

mysql分区交换exchange partition