VOC2007数据集详细分析

Posted 大彤小忆

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了VOC2007数据集详细分析相关的知识,希望对你有一定的参考价值。

  VOC数据集官网链接→http://host.robots.ox.ac.uk/pascal/VOC/
  VOC2007数据集官网链接→http://host.robots.ox.ac.uk/pascal/VOC/voc2007/index.html
  VOC2007数据集百度网盘链接→提取码:z8sd

VOC2007数据集分析:

  VOC2007数据集有20个类:aeroplane, bicycle, bird, boat, bottle, bus, car, cat, chair, cow, diningtable, dog, horse, motorbike, person, pottedplant, sheep, sofa, train, tv/monitor。

  将devkitVOCdevkit_08-Jun-2007.jar、测试集VOCtest_06-Nov-2007.jar、训练集/验证集VOCtrainval_06-Nov-2007.jar分别下载到本地文件夹下,如下图所示。


  分别进行解压,得到一个总的文件夹VOCdevkit,包含如下图所示的文件。


  其中,devkitVOCdevkit_08-Jun-2007.jar中的文件是 development kit code and documentation ,即一些开发工具包代码和文档,如下图所示。有一些MATLAB代码,就是用这些代码处理的这个数据集,还有一个devkit_doc.pdf, 是一个比较详细的说明书。


  测试集VOCtest_06-Nov-2007.jar和训练集/验证集VOCtrainval_06-Nov-2007.jar中的文件均为一个VOC2007文件夹,如下图所示。



  解压后的文件夹VOC2007中有以下五个部分,如下图所示。

  • Annotations
      这个文件夹里都是.xml文件,文件名是图像名称,如下图所示。每个文件里面保存的是每张图像的标注信息,训练时要用的label信息其实就来源于此文件夹。

  • ImageSets
      这个文件夹里面是图像集合 ,打开之后有3个文件夹:LayoutMainSegmentation,如下图所示,这3个文件夹对应的是 VOC challenge 3类不同的任务。


      VOC challenge的Main task,其实是classification和detection,所以在Main文件夹中,包含的就是这两个任务要用到的图像集合,如下图所示。共有84个.txt文件,其中4个文件为训练集train.txt、验证集val.txt、训练集和验证集汇总trainval.txt、测试集test.txt,这4个文件里面保存的是图像的ID号;还有20类目标,每个类别有该类的类别名_train.txt类别名_val.txt类别名_trainval.txt类别名_test.txt这4个文本,共80个文件。这80个文件中每一行的图像ID后面还跟了一个数字,要么是-1, 要么是1,有时候也可能会出现0,意义为:-1表示当前图像中,没有该类物体;1表示当前图像中有该类物体;0表示当前图像中,该类物体只露出了一部分。


      此外还有两个taster tasks :Layout和Segmentation,这两个任务也有各自需要用到的图像,就分别存于LayoutSegmentation两个文件夹中,如下图所示,分别有4个文件:训练集train.txt、验证集val.txt、训练集和验证集汇总trainval.txt、测试集test.txt

  • JPEGImages
      这个文件夹里面保存的是数据的原始图片,打开之后全是.jpg图片,如下图所示,共有9963张图像。

  • SegmentationClass
      这个文件夹里面保存的是专门针对Segmentation任务做的图像,里面存放的是Segmentation任务的label信息。

  • SegmentationObject
      这个任务叫做Instance Segmentation(样例分割),就同一图像中的同一类别的不同个体要分别标出来,也是单独给的label信息,因为每个像素点要有一个label信息。

以上是关于VOC2007数据集详细分析的主要内容,如果未能解决你的问题,请参考以下文章

使用labelImg制作自己的数据集(VOC2007格式)用于Faster-RCNN训练

使用Python将DOTA数据集的格式转换成VOC2007数据集的格式

使用Python将DOTA数据集的格式转换成VOC2007数据集的格式

使用Python将DOTA数据集的格式转换成VOC2007数据集的的格式

使用Python将NWPU VHR-10数据集的格式转换成VOC2007数据集的格式

使用Python将NWPU VHR-10数据集的格式转换成VOC2007数据集的的格式