公开数据集
数据结构 ? 7.86G
README.md
CACD 数据集(全称 Cross-Age Celebrity Dataset)是一个用于跨年龄的人脸识别和检索的大规模数据集, 包含来自互联网的 2,000 名名人的 163,446 张图片。
使用名人姓名和年份(2004-2013)从搜索引擎收集图像作为关键字(可以通过简单地从拍摄照片的年份中减去出生年份来估计图像上的名人的年龄)。
该数据集于 2014 年由马里兰大学计算机科学系发布,相关论文为 Cross-Age Reference Coding for Age-Invariant Face Recognition and Retrieval。
Abstract
目前,人脸识别研究取得了可喜的成果。然而,跨年龄段的人脸识别和检索仍然具有挑战性。与使用具有强参数假设的复杂模型来建模老化过程的现有方法不同,我们使用数据驱动方法来解决这个问题。我们提出了一种新的编码框架,称为跨年龄参考编码(CARC)。通过利用互联网上免费提供的大规模图像数据集作为参考集,CARC能够使用年龄不变的参考空间来编码面部图像的低级特征。在测试阶段,所提出的方法只需要线性投影来对特征进行编码,因此具有高度的可扩展性。为了彻底评估我们的工作,我们引入了一个新的大规模跨年龄人脸识别和检索数据集,称为跨年龄名人数据集(CACD)。该数据集包含2000名年龄在16岁至62岁之间的名人的160000多张照片。据我们所知,它是迄今为止最大的公开跨年龄人脸数据集。实验结果表明,所提出的方法可以在我们的数据集以及用于跨年龄人脸识别的其他广泛使用的数据集(morphi数据集)上实现最先进的性能。
Publication
Bor-Chun Chen, Chu-Song Chen, Winston H. Hsu. Cross-Age Reference Coding for Age-Invariant Face Recognition and Retrieval, ECCV 201 [Pdf] [Bibtex]
Bor-Chun Chen, Chu-Song Chen, Winston H. Hsu. Face Recognition using Cross-Age Reference Coding with Cross-Age Celebrity Dataset, IEEE Transactions on Multimedia, 2015. (accepted) [pdf]
Dataset
跨年龄名人数据集(CACD)包含163446张来自互联网上2000位名人的照片。这些图片是从搜索引擎收集的,使用名人姓名和年份(2004-2013)作为关键词。因此,我们可以通过简单地从照片拍摄年份减去出生年份来估计照片上名人的年龄。下载的数据集包含两个MATLAB结构:
celebrityData - contains information of the 2,000 celebrities
name - celebrity name
identity - celebrity id
birth - celebrity brith year
rank - rank of the celebrity with same birth year in IMDB.com when the dataset was constructed
lfw - whether the celebrity is in LFW dataset
celebrityImageData - contains information of the face images
age - estimated age of the celebrity
identity - celebrity id
year - estimated year of which the photo was taken
feature - 75,520 dimension LBP feature extracted from 16 facial landmarks
name - file name of the image
注意:
*我们手动删除排名小于或等于5的名人的嘈杂图像。然而,由于有些图像即使对人类来说也很难识别,数据集可能仍然包含小噪声。此外,我们只使用非常简单的重复检测方法,因此数据集可能仍然包含接近重复的图像。
*其他名人(排名高于五位)的照片将包含噪音,因此不应用于评估。
*该数据集主要用于跨年龄人脸识别和检索。CACD数据集中的年份标签是粗略的,因此我们不建议将其应用于年龄估计工作。
CACD人脸检索性能
在这里,我们报告了使用原始特征(高维LBP)和所提出的方法(CARC)对具有三个不同子集的人脸检索的结果。在所有三个子集中,2013年拍摄的图像被用作查询图像。该数据库包含分别在2004-2006年、2007-2009年和2010-2012年拍摄的三个子集的图像。所有三个子集仅包含排名从3到5的名人的图像。
Database | 2004-2006 | 2007-2009 | 2010-2012 | |||
Methods | MAP | p@1 | MAP | p@1 | MAP | p@1 |
High-Dimensional LBP | 36.6% | 78.0% | 38.9% | 80.3% | 44.0% | 85.5% |
Cross-Age Reference Coding | 52.9% | 88.8% | 55.5% | 88.5% | 61.1% | 92.2% |
Reference
1.
D.Chen,X.Cao,F.Wen,andJ.Sun,“Blessingofdimensionality:High- dimensional
feature and its efficient compression for face verification,” in IEEE
Conf. Computer Vision and Pattern Recognition, 2013, pp. 3025– 3032.
2. D. Gong, Z. Li, D. Lin, J. Liu, and X. Tang, “Hidden
factor analysis for age invariant face recognition,” in IEEE Int. Conf.
Computer Vision, 2013.
3. Chen, Bor-Chun, Chu-Song Chen, and Winston H. Hsu. "Face
recognition and retrieval using cross-age reference coding with
cross-age celebrity dataset." IEEE Transactions on Multimedia 17.6
(2015): 804-815.
4. Wen, Yandong, Zhifeng Li, and Yu Qiao. "Latent factor
guided convolutional neural networks for age-invariant face
recognition." Proceedings of the IEEE Conference on Computer Vision and
Pattern Recognition. 2016.
If you use our dataset and would like to report your results, please e-mail Sirius Chen. We will be gald to put your results on this webstie.
Code
For cross-age reference coding (CARC) code use in this paper, please visit [here]
We also implemented the high-dimensional LBP features (Chen, Cao, Wen, and Sun, CVPR 2013), please visit [here] for more information.
FAQ
How do I access the annotated images in the CACD dataset?
- The celebrities with rank 1-5 are annotated. Celebrities with rank 1-2 (totally 80 celebrities) are used for valiadation, use celebrityImageData.name{find(celebrityImageData.rank <= 2)} to access the file names of these images; celebrities with rank 3-5 (totally 120 celebrities) are used for testing, use celebrityImageData.name{find(celebrityImageData.rank > 2 && celebrityImageData.rank <=5)} to access the file names.
- 分享你的想法
全部内容
数据使用声明:
- 1、该数据来自于互联网数据采集或服务商的提供,本平台为用户提供数据集的展示与浏览。
- 2、本平台仅作为数据集的基本信息展示、包括但不限于图像、文本、视频、音频等文件类型。
- 3、数据集基本信息来自数据原地址或数据提供方提供的信息,如数据集描述中有描述差异,请以数据原地址或服务商原地址为准。
- 1、本站中的所有数据集的版权都归属于原数据发布者或数据提供方所有。
- 1、如您需要转载本站数据,请保留原数据地址及相关版权声明。
- 1、如本站中的部分数据涉及侵权展示,请及时联系本站,我们会安排进行数据下线。