Ground Truth 和训练数据集

Posted

技术标签:

【中文标题】Ground Truth 和训练数据集【英文标题】:Ground Truth and training data set 【发布时间】:2015-11-17 20:59:55 【问题描述】:

我想知道训练数据集、测试数据集和真实数据之间的关系。我分别知道每一个的含义,但我看不到它们之间的关系,尤其是基本事实和训练数据。

【问题讨论】:

有人可以帮忙解决我在此处发布的问题:***.com/questions/56396730/… 吗? 【参考方案1】:

您的训练数据就是您训练分类器的依据。

然后您在测试集上测试模型的准确性。

基本事实是指您拥有的每个训练样本的标签,即您知道每个训练样本属于哪个类别/结果

【讨论】:

如果我无法知道训练数据中每个样本的标签怎么办?我还不能用它处理吗? 你可以,但你会想看看那个时候叫做无监督学习的东西。对于监督学习,您需要标签,否则它无法了解特征 x、y、z 与类别 1 相关联。 我还有一个问题,如果我知道我的训练部分的标签?我可以将这部分视为具有完整训练集的基本事实和过程吗? 您需要所有训练数据的标签。如果您只知道部分样本的标签,那么它们是您可以在训练集中使用的唯一样本 @KouchakYazdi 因为集群是无监督的学习,所以你不需要真实情况。【参考方案2】:

Ground Truth 是经过观察或测量的事实数据,可以进行客观分析。它没有被推断出来。如果数据基于假设、受制于意见或有待讨论,则根据定义,这不是 Ground Truth 数据。

您使用数据科学解决问题的能力在很大程度上取决于您如何构建问题并毫不含糊地辨别,如果您可以建立基本事实。更多信息在这里详述The Importance of Ground Truth in Data Science

【讨论】:

链接失效【参考方案3】:

假设我们需要训练一台机器来区分苹果和橙子。机器学习的方法是向机器“展示”一些橙子和苹果的例子(训练集),并据此将其余部分识别为橙子或苹果(仅限于苹果和橙子!)。现在,ground-truth 是您判断为苹果和橙子的标签(在训练集中)。

【讨论】:

【参考方案4】:

“基本事实”一词还有另一个重要用途,在回归问题中,了解要建模的数据的真正确定性成分非常有价值。

【讨论】:

以上是关于Ground Truth 和训练数据集的主要内容,如果未能解决你的问题,请参考以下文章

如何使用掩蔽法在 KITTI 数据集上训练单幅图像深度估计

将 ICDAR 2015 的 Ground Truth 标注在图像数据上

[ML] 点云训练数据集的制作

CA-SSL:用于检测和分割未知类的半监督学习

基于语义分割Ground Truth(GT)转换yolov5目标检测标签(路面积水检测例子)

faster-RCNN 加入新的Ground Truth