牛津大学 电视人机交互数据集
我们的互动数据集由300个视频片段组成,这些视频片段从20多个不同的电视节目中收集,包含4种互动:握手、击掌、拥抱和亲吻,以及...Action/Event Detection Classification
156M
830
robot