18 回答
如图所示,曲线越往左下角靠表示性能越好。黑色的是人类,可以看出有两个算法(V-NORM,ST-NORM)已经很接近人类的性能,而TS2-NORM就已经比人类好了。
这个实验采用的是80对人脸图像,分别是在可控光照和不可控光照下拍摄的,人需要在两秒之内判断每一对人脸是否来自同一个人(给出1到5的打分,1表示十分确定是同一个人,5表示十分确定不是同一个人)。一共有26个参与者参加了实验。
需要注意的是,这些图片仅包含光照变化,而且都是高清的。本题报道的论文是在LFW(http://vis-www.cs.umass.edu/lfw/)这个库上测试的。这个库是“非约束人脸识别”的一个最著名的标准库。库里的图像参见http://vis-www.cs.umass.edu/lfw/sets_1.html ,这些图像是网络上收集的,包含了很大的变量,例如光照、姿势、表情、遮挡、分辨率。可以说这个实验比2006那个要难很多。
但是,题主问的这篇也不是“第一篇”声称自己超过人类的。之前Facebook的Deepface也声称自己超过了人类:https://www.facebook.com/publications/546316888800776/
我个人感觉这些算法声称“超过人类”,都有点为了夺眼球的意思(但是引发大众关注、讨论是很好的)。从LFW的结果页面来看:http://vis-www.cs.umass.edu/lfw/results.html#Human
人类在LFW库上最好的识别结果是99.2%,题主提到的论文对比的是97.53%那个结果。两者不同是因为采用的图像裁剪、对齐方法不同(仅仅裁剪出含人脸的部分)。这个对齐方法对识别的影响是很大的。
那么回到问题上来,现在的人脸识别算法是否已经超越了人类呢?
我个人觉得还没有那么乐观。
正如题目这篇论文 Surpassing Human-Level Face Verification Performance on LFW with GaussianFace http://arxiv.org/abs/1404.3840 的讨论部分提到的,人脸其实比较善于识别“熟悉人脸”,比如一个人可以在很昏暗的环境下快速认出自己的朋友、可以从人群里快速找到自己的家人……2006年的那个测试和LFW上的这些测试,对于人类来讲,都是“不熟悉的人脸”,其实是很不公平的。有点像用计算机的长处去比了人类的短处。
自动人脸识别技术发展了40多年,False reject rate从1993年的79%降到2010年的0.3%(false accept rate=0.1%),LFW库上的算法识别率从2007年的60%升到2014年的97~98%,可见是取得了巨大进步的。
现在人类到底是如何识别人脸的,机制还不是很清楚。但是,总体来说人脸识别算法还是在一步一步接近人类识别的。
----- 补充回答 ----------
在这里要提供一些 真正的人类识别人脸 的能力的资料!!!
关于人类对人脸识别的一些有趣现象,大家可以看这篇科普性的文章:Face Recognition by Humans: Nineteen Results All Computer Vision Researchers Should Know About IEEE Xplore Abstract
人对于“熟悉”人脸的识别能力可以看一个例子(图来自于上面这篇文章):
即便是在分辨率如此低的情况下,要认出4是克林顿,10是查尔斯王子 也不是很难吧?
这篇综述有讲关于“熟悉人脸”识别的研究: Familiar and unfamiliar face recognition: A review http://www.tandfonline.com/doi/pdf/10.1080/09658210902976969
另外,总是有人提到自己是脸盲,可以到这里测试一下自己认脸的能力:http://www.testmybrain.org/tests/start
严重的脸盲是连自己的脸也认不出的,据一个严重的患者说每次在公共卫生间大家排着队等时,从镜子里看到很多人脸,不知道哪一张是自己的,需要先做一个鬼脸才知道哪个是自己的人脸……
与此相对的,是一些 超级认脸者,就是从来不会忘记曾经见过的人脸!!!(这样其实也很痛苦吧……) 英国的Channel 4曾经做过一档节目,在请了一些这样的超级认脸者来PK,在英国一个火车站,找了一些志愿者穿上一模一样的套头衫,戴上套头然后混在火车站人群里面,请这些认脸者来观察;观察结束后,这些志愿者混入一些没有出现在火车站的志愿者中,脱去套头衫,然后请认脸者把他们挑出来~
https://hiddentalent.channel4.com/c4/tests/recognizer
图1. LFW人脸图像示例
1.2 LFW数据集上的识别实验设计
官方文档[2]详细给出了待测算法在LFW上实验的规范,以便于不同算法间的比较。
识别算法要完成的工作是人脸验证(Face verification),即判断给定的两张图片(一对)中的人脸是否来自同一个人。
LFW将数据集分作两大块,[View 1]用做供研究人员选择其算法模型所用,包括一个训练集和一个测试集,不管是训练集还是测试集,其图片都是由M对来自同一人脸的图像和N对来自不同人脸的图像构成;当确定了模型后,算法将在[View 2]上实验,[View 2]包含10个子集,每个子集构成规则同刚讲到的训练集或测试集,实验过程大抵为:
A、每次从10个子集中选一个做为测试集,其余9个做为训练集;
B、通过训练集确定模型的参数;
C、对测试集进行预测;
D、计算预测的准确度;
进行十次之后,平均的准确度即为该算法在LFW上的识别准确度,GaussianFace的98.52%即是如此计算的。
图2. 训练集示例
1.3 其他的人脸数据库
这里顺带把文章[0]中用到的两个公开数据集在这说下:
A、Multi-PIE[3]
在可控环境下人为产生的337个人的750,000张图片,包含15个视角及19种光照变化。
图3. Multi-PIE图像示例
B、MORPH[4]
多种族多年龄段图像集,成像条件类似证件照过程。
图4. MORPH图像示例
图5.MORPH图像集统计信息
粗略看来,LFW较之上面二者,更贴近人类活动的现实场景,在LFW上验证的识别算法理论上可能应对现实中特定的或基本的人脸识别应用。
当然,还有其他诸多公共数据集,在[2]中有详细列表,或在http://www.face-rec.org/databases/获知。
2、 人类的人脸识别能力
最让人类纠结的事情莫过于明知自身有着高度的智慧,却不知这种智慧的运作机理,难道这种智慧里面就不包含了解这种智慧运作机理的智慧吗?人类想创造出拥有同等智慧的物体却始终不能得偿所愿。
对人脸的识别能力是人类智慧中的一种,确切地说是人类视觉认知能力之一。如果说不能了解这种能力的运作机理,那是否可以对这种能力进行度量呢?比如说,人类在体育竞技上取得的成绩即可以认为是人类所具备的那些能力的度量,同理,也可以设计类似的分值以粗略量化人类对人脸的识别能力。
文章[0]中提到的人类的人脸识别能力(Human-Level Face Verification Performance)是引自文章[5]的。
作者利用Amazon众包服务[6],对选自LFW的6000对图片,平均每对图片进行10人(不同人)次的识别,大约分配给了240000个用户去进行人脸识别的测试,准则如下图:
此项实验其考察了人类在三种情形下对人脸的识别能力:
好了,被打败的人类识别能力就是这样定义的,做为人类一分子的你,不管是拖了后腿还是低估了你,你就是这样被算法打败的!不服?你上最吊大脑秀去啊。。。当然,所谓的人类识别能力也不是只有这家子的定义,还有好几个呢,当然,它们都不出意外地被这个或那个算法打败了!!!所以,媒体宣传说人类识别能力首次被超越是不严肃的。我们过一下文章[0]提到的那几个被打败的人类识别能力的定义:
我说的一半可能是错了,我也不知道错的是哪一半。
PS:关于题主关注的这个算法是不是出类拔萃的问题,我个人持保留态度。我个人估计是因为他拥有巨大的一个训练库,20000个人,接近100000张照片。而其他人可能只有LFW的训练集。在高度依赖数据的时代,这20000个人会带来较高的提升。并不能证明算法的鹤立鸡群。 这家伙很懒,还没有设置简介