标记数据和未标记数据有啥区别?

Posted

技术标签:

【中文标题】标记数据和未标记数据有啥区别?【英文标题】:What is the difference between labeled and unlabeled data?标记数据和未标记数据有什么区别? 【发布时间】:2013-10-10 19:48:03 【问题描述】:

在 Sebastian Thrum 的 this 视频中,他说监督学习适用于“标记”数据,而无监督学习适用于“未标记”数据。他这是什么意思?谷歌搜索“标记与未标记数据”会返回一堆关于该主题的学术论文。我只想知道基本的区别。

【问题讨论】:

这个问题确实属于Cross Validated而不是这里,但是这个问题太旧了,无法迁移。 最好的例子在这里:stats.stackexchange.com/questions/60987/… 【参考方案1】:

在未标记的数据中,没有目标值(因变量)。我们使用无监督机器学习模型来生成目标/因变量,这基本上是将相似的数据组合在一起作为集群。

【讨论】:

【参考方案2】:

为了更好地回答您的问题,我们先来定义一下什么是训练数据,“训练数据只是指用于创建模型的准备好的数据。

现在让我们定义什么是标记学习或监督学习: “您要预测的值实际上在训练数据中。”这意味着来自训练数据的每条记录都包含所有必要的信息(特征和target value 也是如此)。

无标签或无监督学习: "您要预测的值不在训练数据中。"

旁注:两种方法都使用,但公平地说,最常见的方法是监督学习。

【讨论】:

【参考方案3】:

标签数据是一组带有一个或多个标签的样本。标记通常采用一组未标记的数据,并使用有意义的信息标签来扩充每个未标记的数据。例如,标签可能会指示一张照片是否包含一匹马或一头牛,在录音中说出了哪些词,在视频中正在执行什么类型的动作,新闻文章的主题是什么,整体情绪是什么一条推文是,X 光片中的点是否是肿瘤等。

【讨论】:

【参考方案4】:

我们可以说标签是定义明确的数据。例如。电子邮件、IP 地址等而未标记的数据是未正确定义的数据。例如。自然模式、鸟类的迁徙模式等。没有标记的数据本身是有意义的,但只有标记的数据是可以理解的。

【讨论】:

【参考方案5】:

标签数据,由监督学习使用添加有意义的标签标签类 em> 到观察(或行)。这些标签可以来自观察或向人们或专家询问数据。

分类回归可应用于监督学习的标记数据集。

机器学习模型可以应用于标记数据,以便可以将新的未标记数据呈现给模型,并且可以猜测或预测可能的标签。

无标签数据,由无监督学习使用,但没有任何有意义的标签或与之关联的标签。 无监督学习的算法比监督学习更难,因为我们对数据或预期结果知之甚少。

聚类被认为是最流行的无监督机器学习技术之一,用于对数据点或某种相似的对象进行分组。

无监督学习的模型更少,可用于确保模型结果准确的评估方法也更少。因此,当机器为我们创造成果时,无监督学习创造了一个不太可控的环境。

图片由Coursera: Machine Learning with Python提供

【讨论】:

【参考方案6】:

通常,未标记数据包含自然或人工制品的样本,您可以相对容易地从世界上获得这些样本。未标记数据的一些示例可能包括照片、录音、视频、新闻文章、推文、X 射线(如果您正在处理医疗应用程序)等。对于每条未标记数据都没有“解释”——它只包含数据,没有其他内容。

标记数据通常采用一组未标记的数据,并使用某种有意义的“标签”、“标签”或“类”来扩充该未标记数据的每一部分,这些“标签”或“类”以某种方式提供信息或可取要知道。例如,上述类型的未标记数据的标签可能是这张照片是马还是牛,在这段录音中说出了哪些词,在这段视频中正在执行什么类型的动作,这篇新闻文章的主题是什么就是,这条推文的整体情绪是什么,这张x光片中的点是否是肿瘤等等。

数据标签通常是通过要求人类对给定的未标记数据(例如,“这张照片包含马还是牛?”)做出判断来获得的,并且与原始未标记数据相比,获得标签的成本要高得多.

在获得标记数据集后,机器学习模型可以应用于数据,以便将新的未标记数据呈现给模型,并且可以猜测或预测该未标记数据的可能标签。

机器学习中有许多活跃的研究领域,旨在整合未标记和标记的数据,以构建更好、更准确的世界模型。半监督学习尝试将未标记和标记数据(或更一般地说,只有一些数据点具有标签的未标记数据集)组合成集成模型。深度神经网络和特征学习是尝试单独构建未标记数据模型的研究领域,然后将标签中的信息应用于模型的有趣部分。

【讨论】:

我终于明白了【参考方案7】:

机器学习中有许多不同的问题,所以我将选择分类作为一个例子。在分类中,标记数据通常由一袋多维特征向量(通常称为 X)和每个向量的标签 Y 组成,Y 通常只是对应于类别的整数,例如。 (人脸=1,非人脸=-1)。 未标记的数据缺少 Y 分量。 在许多情况下,未标记的数据很丰富且很容易获得,但标记的数据通常需要人工/专家进行注释。

【讨论】:

以上是关于标记数据和未标记数据有啥区别?的主要内容,如果未能解决你的问题,请参考以下文章

Angular 4 标记中的 [property]= 和 property 有啥区别?

使用标记/空间奇偶校验和无奇偶校验有啥区别?

在Xml中,啥叫标签,啥事标记?它们有啥区别?

WB/WC 标记区域的 MOVDQA 和 MOVNTDQA 以及 VMOVDQA 和 VMOVNTDQ 有啥区别?

iframe与frameset有啥区别

仅具有正数和未标记数据集的二进制半监督分类