公开数据集

COCO 图像识别的数据集

83.39G

5381 浏览

7 喜欢

159 次下载

0 条讨论

Depth Estimation,Face 2D Box

COCO 是一个大型图像数据集，其被用于机器视觉领域的对象检测与分割、人物关键点检测、填充分割与字幕生成。该数据集以场景理解......

数据介绍
文件预览
相关论文
Code
分享讨论(0)
使用声明

启动Notebook开发

数据结构 ? 83.39G

* 以上分析是由系统提取分析形成的结果，具体实际数据为准。

README.md

COCO 是一个大型图像数据集，其被用于机器视觉领域的对象检测与分割、人物关键点检测、填充分割与字幕生成。该数据集以场景理解为主，图像中的目标则通过精确的分割进行位置标定。

该数据集具有目标分割、情景感知和超像素分割三个特征，其包含 33 万张图像、150 万目标实例、80 个目标类、91 个物品类以及 25 万关键点人物。

COCO数据集有91类，虽然比ImageNet和SUN类别少，但是每一类的图像多，这有利于获得更多的每类中位于某种特定场景的能力，对比PASCAL VOC，其有更多类和图像。

COCO数据集分两部分发布，前部分于2014年发布，后部分于2015年，2014年版本：82,783 training, 40,504 validation, and 40,775 testing images，有270k的segmented people和886k的segmented object；2015年版本：165,482 train, 81,208 val, and 81,434 test images。

该数据集主要有的特点如下：

（1）Object segmentation

（2）Recognition in Context

（3）Multiple objects per image

（4）More than 300,000 images

（5）More than 2 Million instances

（6）80 object categories

（7）5 captions per image

（8）Keypoints on 100,000 people

为了更好的介绍这个数据集，微软在ECCV Workshops里发表这篇文章：Microsoft COCO: Common Objects in Context。从这篇文章中，我们了解了这个数据集以scene understanding为目标，主要从复杂的日常场景中截取，图像中的目标通过精确的segmentation进行位置的标定。图像包括91类目标，328,000影像和2,500,000个label。

该数据集主要解决3个问题：目标检测，目标之间的上下文关系，目标的2维上的精确定位。数据集的对比示意图：

数据集分类：

Image Classification：

分类需要二进制的标签来确定目标是否在图像中。早期数据集主要是位于空白背景下的单一目标，如MNIST手写数据库，COIL household objects。在机器学习领域的著名数据集有CIFAR-10 and CIFAR-100，在32*32影像上分别提供10和100类。最近最著名的分类数据集即ImageNet，22,000类，每类500-1000影像。

Object Detection：

经典的情况下通过bounding box确定目标位置，期初主要用于人脸检测与行人检测，数据集如Caltech Pedestrian Dataset包含350,000个bounding box标签。PASCAL VOC数据包括20个目标超过11,000图像，超过27,000目标bounding box。最近还有ImageNet数据下获取的detection数据集，200类，400,000张图像，350,000个bounding box。由于一些目标之间有着强烈的关系而非独立存在，在特定场景下检测某种目标是是否有意义的，因此精确的位置信息比bounding box更加重要。

Semantic scene labeling：

这类问题需要pixel级别的标签，其中个别目标很难定义，如街道和草地。数据集主要包括室内场景和室外场景的，一些数据集包括深度信息。其中，SUN dataset包括908个场景类，3,819个常规目标类(person, chair, car)和语义场景类(wall, sky, floor)，每类的数目具有较大的差别（这点COCO数据进行改进，保证每一类数据足够）。