计算机视觉COCO Caption数据集简单介绍

Posted 2023-03-31 旅途中的宽~

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了计算机视觉COCO Caption数据集简单介绍相关的知识，希望对你有一定的参考价值。

最近在做开放域目标检测时候，经常遇到一个数据集—COCO Caption数据集。

这里就来介绍一下数据集。

COCO Caption数据集：

Microsoft COCO Caption数据集的推出，是建立在Microsoft Common Objects in COntext (COCO)数据集的工作基础上的。

在论文《Microsoft COCO Captions: Data Collection and Evaluation Server》中，作者们详细介绍了他们基于MS COCO数据集构建MS COCO Caption数据集的工作。

简要地来说，就是对于原COCO数据集中约330,000张图像，使用亚马逊公司的Mechanical Turk服务，人工地为每张图像都生成了至少5句标注，标注语句总共超过了约150万句。至于亚马逊的“土耳其机器人”服务，其实也就是另一种形式的雇人拿钱干活而已。

实际上，COCO Caption数据集包含了两个数据集：

第一个数据集是MS COCO c5。它包含的训练集、验证集合测试集图像和原始的MS COCO数据库是一致的，只不过每个图像都带有5个人工生成的标注语句；
第二个数据集是MS COCO c40。它只包含5000张图片，而且这些图像是从MS COCO数据集的测试集中随机选出的。和c5不同的是，它的每张图像都有用40个人工生成的标注语句。

之所以要做MS COCO c40数据集，是因为如果有更多的参考标注语句，很多对于算法生成的标注的自动计算标准能够和人类判断有更高的相关性。下一步可能将MS COCO验证集中所有的图像都加上40个人工生成的标注语句。

总结：

简言之，MS COCO Caption数据集就是针对图像标注问题创建的，图像及其标注数量大，提供了现成的评价标准计算服务器和代码。就目前发表的高水平论文来看，MS COCO Caption数据集已经越来越成为研究者的首选。

object detection数据集

介绍目标检测当中常见的几个数据集，及它们当前达到的精度。

1.COCO数据集

MS COCO的全称是Microsoft Common Objects in Context，起源于微软于2014年出资标注的Microsoft COCO数据集，与ImageNet竞赛一样，被视为是计算机视觉领域最受关注和最权威的比赛之一。图像包括91类目标，328,000影像和2,500,000个label。目前为止有语义分割的最大数据集，提供的类别有80 类，有超过33 万张图片，其中20 万张有标注，整个数据集中个体的数目超过150 万个。

该数据集主要解决3个问题：目标检测，目标之间的上下文关系，目标的2维上的精确定位。
目前在coco数据集上的最大 mAP是北大的53.3 mAP.

以上是关于计算机视觉COCO Caption数据集简单介绍的主要内容，如果未能解决你的问题，请参考以下文章