Visual Question Answering V2.0 一个针对图像内容进行自然语言问答的数据集
Visual Question Answering (VQA) 是一个针对图像内容进行自然语言问答数据集,其中有关图像的自然语言问题和答案需要对图像内容...NLP Text
30.7G
951
VQA
Visual Genome 图像及图像内容语义信息的数据集
Visual Genome是一个数据集,一个知识库,一个将结构化图像概念连接到语言的持续努力。VisualGenome数据集是Stanford大学维护的...CNN 2D Box
14.94G
872
Stanford University
Visual7W 图像内容理解的数据集
Visual7W图像数据是一个图像内容理解的数据集,通过对图像区域的文字描述和互相之间的关联,进行视觉问答(Visual Question Answ...Image Search Classification
1.8G
600
robot
Large-Scale Image Annotation using Visual Synset (ICCV 2011)
Action/Event Detection Classification
1.5G
436
robot
visual relationship detection database
To benchmark progress in visual relationship detection, we also introduce a new dataset containing 5000 images with 37,9...Action/Event Detection 2D Box,Pose
2.16M
511
Stanford University