VOC2007数据集详细分析
Posted 大彤小忆
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了VOC2007数据集详细分析相关的知识,希望对你有一定的参考价值。
VOC数据集官网链接→http://host.robots.ox.ac.uk/pascal/VOC/。
VOC2007数据集官网链接→http://host.robots.ox.ac.uk/pascal/VOC/voc2007/index.html。
VOC2007数据集百度网盘链接→提取码:z8sd。
VOC2007数据集分析:
VOC2007数据集有20个类:aeroplane, bicycle, bird, boat, bottle, bus, car, cat, chair, cow, diningtable, dog, horse, motorbike, person, pottedplant, sheep, sofa, train, tv/monitor。
将devkitVOCdevkit_08-Jun-2007.jar
、测试集VOCtest_06-Nov-2007.jar
、训练集/验证集VOCtrainval_06-Nov-2007.jar
分别下载到本地文件夹下,如下图所示。
分别进行解压,得到一个总的文件夹VOCdevkit
,包含如下图所示的文件。
其中,devkitVOCdevkit_08-Jun-2007.jar
中的文件是 development kit code and documentation ,即一些开发工具包代码和文档,如下图所示。有一些MATLAB代码,就是用这些代码处理的这个数据集,还有一个devkit_doc.pdf
, 是一个比较详细的说明书。
测试集VOCtest_06-Nov-2007.jar
和训练集/验证集VOCtrainval_06-Nov-2007.jar
中的文件均为一个VOC2007
文件夹,如下图所示。
解压后的文件夹VOC2007
中有以下五个部分,如下图所示。
-
Annotations
这个文件夹里都是.xml
文件,文件名是图像名称,如下图所示。每个文件里面保存的是每张图像的标注信息,训练时要用的label信息其实就来源于此文件夹。
-
ImageSets
这个文件夹里面是图像集合 ,打开之后有3个文件夹:Layout
、Main
、Segmentation
,如下图所示,这3个文件夹对应的是 VOC challenge 3类不同的任务。
VOC challenge的Main task,其实是classification和detection,所以在Main
文件夹中,包含的就是这两个任务要用到的图像集合,如下图所示。共有84个.txt
文件,其中4个文件为训练集train.txt
、验证集val.txt
、训练集和验证集汇总trainval.txt
、测试集test.txt
,这4个文件里面保存的是图像的ID号;还有20类目标,每个类别有该类的类别名_train.txt
、类别名_val.txt
、类别名_trainval.txt
、类别名_test.txt
这4个文本,共80个文件。这80个文件中每一行的图像ID后面还跟了一个数字,要么是-1, 要么是1,有时候也可能会出现0,意义为:-1表示当前图像中,没有该类物体;1表示当前图像中有该类物体;0表示当前图像中,该类物体只露出了一部分。
此外还有两个taster tasks :Layout和Segmentation,这两个任务也有各自需要用到的图像,就分别存于Layout
和Segmentation
两个文件夹中,如下图所示,分别有4个文件:训练集train.txt
、验证集val.txt
、训练集和验证集汇总trainval.txt
、测试集test.txt
。
-
JPEGImages
这个文件夹里面保存的是数据的原始图片,打开之后全是.jpg
图片,如下图所示,共有9963张图像。
-
SegmentationClass
这个文件夹里面保存的是专门针对Segmentation任务做的图像,里面存放的是Segmentation任务的label信息。
-
SegmentationObject
这个任务叫做Instance Segmentation(样例分割),就同一图像中的同一类别的不同个体要分别标出来,也是单独给的label信息,因为每个像素点要有一个label信息。
以上是关于VOC2007数据集详细分析的主要内容,如果未能解决你的问题,请参考以下文章
使用labelImg制作自己的数据集(VOC2007格式)用于Faster-RCNN训练
使用Python将DOTA数据集的格式转换成VOC2007数据集的格式
使用Python将DOTA数据集的格式转换成VOC2007数据集的格式
使用Python将DOTA数据集的格式转换成VOC2007数据集的的格式