数据要素产业
Holopix50k发布: 最多最丰富的双目数据集大幅提升多个相关任务性能?
随着配备双目摄像头的智能手机逐步增加,利用计算机视觉处理立体信息的需求也变得越来越重要。但现有的立体视觉数据集无论在数量和多样性上都不足以支持丰富场景的双目立体应用。
为了解决这一问题,来自Leia公司的研究人员们构建了一个包含49368对图像的立体视觉数据集Holopix50k,这一数据集从大小和多样性上都超过了现有的公开数据集,在立体图像超分辨、单目深度估计等任务上都取得了非常大的性能提升。
立体视觉的及其广泛应用
近年来随着硬件的发展,立体视觉已经在智能手机中普及。通过双目摄像头不同视角的拍摄下能够得到场景的立体信息,对于3D照片、虚拟现实和交互等应用有着重要的作用。此外移动机器人和自动驾驶的迅速发展,也为立体视觉算法提出了更高的要求,需要在更为复杂的场景、多样的真实环境中有效工作。
立体视觉的主要任务包括立体视差估计、基于自监督或者无监督方法对单张图像输入进行单目深度估计和基于立体图像提升分辨率的图像超分辨等任务。这些任务都需要高质量的大规模双目/深度数据集来进行训练。
目前人工智能领域的深度学习算法在多个领域取得重大的进展,但大规模的、多样性的数据需求却成为了立体视觉领域开发出优秀算法的阻碍!大规模的立体数据集是提升算法性能的关键之一。
目前立体视觉领域的数据集主要包括像KITTI,Middlebury、NYU Indoor等较为流行的真实数据集、还包括Make3D、ETH3D、CMLA和Cityscape等针对特定领域的数据集,近年来还出现了像Flickr1024和WSVD等场景更为丰富的数据集,但这些数据集在数量和相关指标上并没有良好的结果。
此外为了克服真实世界中数据收集的困难,研究人员还提出了利用图形学渲染的方法来渲染获取大量的双目数据,主要包括MPI Sintel、SceneFlow、UnrealStereo和3D Ken Burns等数据,但合成数据应用于真实场景会受到域迁移问题的影响,同时还需要很大的努力来构建丰富的数字化场景。而Holopix50k的目的就在于综合解决这些存在的问题。
Holopix50k
这一数据集主要从社交媒体平台上收集而来,Holopix是目前最主流的3D摄影共享平台,包含了大量的多视角立体视觉照片并可以利用视差效应来显示出三维效果。这里汇集了世界上最为丰富的立体视觉社交媒体图像,用户只需要上传两个或多个视角,就可以在光场显示设备上获取多视角图像,也可以在普通设备上获取基于移动的模拟立体图像。
在Holopix平台上RED Hydrogen One拍摄的图像最多,作为第一款集成光场性能的消费级手机,它可以提供四个视角的多角度显示。它拥有两个水平排列的相机,同时对图像进行了校正并收敛于立体图像的平均视差。与Flickr1024不同的是,这种方法并没有对图像进行剪切来使得图像片收敛于无穷远处的立体视差。
在最开始的阶段,研究人员首先从Holopix上收集了约70k适合于作为数据集的立体视觉图像对,针对左右图像分辨率不匹配的情况会将两张图像的分辨率统一为其中较小的分辨率,利用高斯平滑和双三次插值来将分辨率较高的图像进行下采样。
由于这一数据集主要集中于针对水平排列相机的立体视觉,而在垂直方向上的视差会影响立体视觉匹配算法的性能,需要去除具有垂直视差的图像。在这样的筛选后剩下约60k的图像对。
垂直视差造成的匹配性能下降,c和d分别是垂直方向上有2像素和5个像素视差下的匹配结果。
由于绝大多数照片是由Hydrogen One拍摄的,其后摄基线只有12mm前摄则为5mm,场景中包含的视差信息应该是处于有限范围内的,所有研究人员通过视差分析模型去除了包含极端误差的图像和立体特征较差的图像对,最终得到了约50k的立体视觉图像对。
为了探索数据集的分布,研究人员利用在coco数据集上预训练的Mask-RCNN目标检测器对每一对图像的左图来进行检测分析,结果表明其中包含了大量丰富的常见物体,由于这是社交媒体平台,所以其中会包含很多的人物,共检测到了约21k个人体实例。此外数据集中还包含了风景和肖像摄影,为数据集贡献了可观的多样性。
Holopix中物体的词云分布包含了很多常见的物体
定量测评
为了展现数据集的优势,研究人员利用熵、BRISQUE、SR-metric和ENIQA等指标比较了Holopix与现有的数据集,结果如下表所示 :
除了数据集的数量显著高于其他数据集外,可以看到其具有最高的SR指标,意味数据集的质量在人类感知下是最高的、熵值第二高意味着图像中包含的信息也很丰富。
研究人员将数据集按照分辨率分为了HD(720p)和SD(360p)两个子集,其指标在数据集比较中都处于top2的范围内。
除了数据集本身的比较外,研究人员还利用这一数据集重新训练了几个关键的立体视觉任务模型,都得到了大幅的性能提升。
针对图像超分辨任务,采用了PASSRNet模型进行4x图像超分辨,在Holopix50k数据集上训练的结果与Flickr1024上的结果相比具有非常大的性能提升。下表显示了随着训练数据集的增加,得到的模型在不同测试集上的结果也有着显著提升。
下图可以看到基于这一大型数据集训练的结果要明显优于Flickr1024数据集的结果,细节得到更为丰富的重建:
针对单视图深度估计任务,研究人员选择了自监督方法的Monodepth2模型并与其在KITTI上训练的结果进行了比较。下图显示基于Holopix训练的结果图像较为清晰,边缘也得到了更好的保留,a列为KITTI上训练的结果、b列为Holopix50k上训练的结果。
下表展示了模型在Middlebury和MPI数据集上测试的结果,表明这一数据集同样可以适用于道路等多种数据集不包含的场景中,让模型可以学到具有泛化性的结果。
针对视差估计任务,研究人员基于U-Net构建了自己的模型,同时还优化后得到了较小的实时视差估计模型,利用Pix2Pix类似的架构来构建单目深度估计模型,下图a,b,c分辨显示了立体视差估计、实时视差估计和单目深度估计的结果。视差估计可以很好的区分出场景中的不同目标,经过优化后的模型只有约15k参数能够部署于边缘设备中;而针对单目深度估计则可以在没有先验的条件下得到可观的深度层次结果。
这里只是简要地列举了一些数据集的特征和应用任务,如果想要了解更多的细节请参看数据集网站。