数据要素产业
酷酷的口罩自拍可能被用于人脸识别数据集,你愿意吗?
突如其来的新冠肺炎,对全世界都造成了不小的影响。各国都开始执行社交禁令,人人出门在外必备口罩。而随着人们口罩佩戴的时间变长、人数变多,人脸识别的问题就逐渐显现出来。虽然口罩能够帮助我们抵御病毒 ,但先前已经广泛使用的人脸识别系统却无法正常工作了,包括乘坐交通工具认证、门禁、打卡、手机解锁和付款等功能都无法正常进行。举一个最简单的例子——你的iPhone真的不认识戴着口罩的你了。
因此,能够准确识别佩戴口罩的人脸识别解决方案成为不少公司迫在眉睫的新任务。
你戴口罩的照片可能会被用来训练算法同时并不需要经过你的同意
随着人们长时间戴口罩出行,人们戴口罩的自拍和照片同样也会在Instagram和Facebook等流行平台上泛滥,这是显而易见的。但是你知道吗?你戴着口罩的自拍照不仅会被你的朋友和家人看到,也会被研究人员收集起来,来改进面部识别算法。例如CNET在公共数据集中,发现了数千张直接从Instagram上拍摄的“蒙面自拍”。
COVID-19的流行正在导致戴口罩的人数激增,而面部识别公司也在争相跟上,他们需要更多人们佩戴口罩的照片来训练他们的算法。
今年4月,研究人员使用从Instagram收集到1200多个样本,将COVID19口罩图像数据集发布到Github。样本还引用了此前中国研究员整理的数据库,其中包括5000多张佩戴了口罩的照片。
“在搜集数据方面,我们受到一些推出免费工具的公司的启发。”Arbash说,“这些图片都是公开发布在Instagram上的,而非私人照片。我们所做的只是在搜索和获取正确的数据。”
长期以来,人脸识别公司未经同意就使用人们的图片来训练算法。例如一个较受争议的面部识别公司Clearview-AI声称他们从社交网络中获取超过30亿张图片并录入其数据库。但有些人也认为,面部识别技术威胁到隐私和言论自由,并警告说,现在几乎没有任何法律可以防止监控工具的滥用。
口罩的佩戴大大降低了面部识别的速度
由于口罩能够有效防止COVID-19的传播,美国半数以上州的州长都要求民众在公共场合戴口罩。但与此同时,口罩的佩戴也降低了面部识别软件的识别速度,因为口罩恰恰挡住了面部上用于技术分析的关键部位。
为了收集数据,一些面部识别服务的提供商已经开始要求自己的员工上传他们佩戴口罩的自拍,并在已有基础上进行编辑。但一家公司能要求自拍的员工有限,人脸识别公司还需要更多的数据以完善算法,比如佩戴口罩的方式——挡住鼻子以下的部分、只遮住下巴和嘴等等,这样算法才能更好地识别女性、有色人种、不同年龄段的人以及各种“蒙面”类型。
对于公司的公共数据库,Arbash说,这些照片是从Instagram上搜索到的,公开帖子中被发布者打上了与口罩相关的hashtag。如果用户不想被发现,可以将自己的页面设为私密。公司从社交媒体平台收集了大约3000张照片,但经过筛选之后将照片规模减少至1200张。
人脸识别(Face Recognition)vs人脸检测(Face detection)
人脸识别侧重于确认这张脸的独一无二的身份和属性。例如,在无感测温场景下,我们需要人脸检测 确认额头的位置以便检测温度身份信息并不必要。就像在图片中找出猫一样,机器只需要针对大量戴口罩的人脸进行学习,就能在现实世界中找出它们。
人脸检测是指从图片中找到人脸所在的位置,对于这张脸长什么样子、属于谁并不关心。
道德问题的出现
未经用户允许就擅自使用他们发在社交媒体的照片,难免会引起关注隐私的网友的不适。对此,Arbash解释道他们之所以这样做,是为了帮助那些希望提高识别佩戴口罩的准确率的数据科学家或机器学习工程师。“我们不会从中赚钱,这也不是商业活动。”如果有足够的兴趣,公司未来也将更多考虑去研究如何获得更多的“蒙面”数据。
但Facebook并不买账:“未经用户同意,我们不允许第三方以这种方式收集或使用用户发布的照片。”
The Real World Masked Face Dataset(RMFD)声称是最大的蒙面脸数据集,拥有从互联网上收集的525人的5000多张蒙面图片。这一数据集来自武汉大学的研究人员。他们提出了三种佩戴口罩的人脸数据集,包括:
1、口罩佩戴检测人脸数据集(Masked Face Detection Dataset,MFDD)
2、真实世界的口罩佩戴人脸识别数据集(Real-world Masked Face Recognition Dataset, RMFRD)
3、模拟口罩佩戴人脸识别数据(Simulated Masked Face Recognition Dataset, SMFRD)
从社交媒体上抓取人们的照片来训练面部识别算法的做法并不新鲜,但由于COVID-19,人们才对这一问题更加关注。作为一项公共安全问题,开发人员迫切需要开发更为准确的口罩人脸检测技术;但在未经许可收集图像时,则会出现道德问题。