腾讯优图连夺世界冠军背后:百万级人脸识别达83%,人眼只有23% | 新智元专访

2018-03-27 17:21:52 浏览数 (1)

【新智元导读】腾讯优图是腾讯AI的三大核心支柱之一,与微信AI团队和新成立的腾讯AI Lab共同驱动腾讯的 AI 发展。本年度人脸识别标志性比赛:LFW 和 MegaFace上,优图都拿到了冠军的成绩。当下,计算机视觉(CV)发展逐渐进入成熟期,业界也传出“刷分无用论”,那么腾讯优图如何看待“刷分”现象?依托腾讯强大的资源和数据平台,优图在创新和应用上有哪些优势?优图目前的技术储备都有哪些?近日新智元专访了腾讯优图团队,试图解答以上问题。

连拿两项人脸识别国际冠军,刷分只是检验技术落地成果副产品

2017年4月,腾讯优图实验室就在国际最权威、难度最高的海量人脸识别数据库MegaFace中,以83.290%的最新成绩在100万级别人脸识别测试(Challenge1/FaceScrub identification)中拔得头筹。

关于MegaFace:MegaFace是由美国华盛顿大学(University of Washington)计算机科学与工程实验室发布并维护的一套公开人脸数据集,MegaFace以海量人脸注册情况下的识别率为重要指标,MegaFace是目前最为权威热门的评价人脸识别性能,特别是海量人脸识别检索性能的基准参照之一。

这也是近期继 LFW 之后,优图实验室再次刷新世界纪录。此前,在国际权威人脸识别数据库LFW上,腾讯优图实验室在无限制条件下人脸验证测试(unrestricted labeled outside data)中提交的最新成绩为99.80%,提升了上次99.65%的成绩。

刷新纪录的成果介绍;来源:LFW官网Results截图

在接受新智元的专访时,针对目前业界广泛流传的“刷分无用”论,优图团队表示,参加MegaFace比赛,是对于算法、计算平台、数据的综合考验,这是对团队能力的一种锤炼,通过挑战极限,促进技术进步。

他们说:“另外,参加竞赛很重要的一点是心态和定位,其实我们参加各种比赛完全是按照我们自己产品落地的节奏进行的,目的更多的是想验证下我们技术进步的成果,刷分只是检验技术落地成果的副产品。 竞赛只要能够正确反映技术优劣促进技术发展就是其真正意义所在了。”

在优图看来, 组织好的竞赛肯定是有意义的,就像奥林匹克极大促进了世界体育的发展。

优图团队进一步对新智元介绍说,大多数比赛中的性能和实际应用中的性能绝对值其实没有直接的可比性, 但会有相对的参考价值。由于优图的技术研发都是以业务落地为导向的,所以比赛中性能出色的算法必定是其在实际应用中有可取之处的。竞赛中产生的新技术也会回馈到实际应用中,创造更大的价值。他们自己的经验是:竞赛中的模型在实际应用中也通常是表现最好的。但实际应用中不仅要考虑准确率,还必须考虑实际数据场景、模型大小、运行速度等更多因素。

100万级大规模1:N人脸测试:人类平均水平23.9%,机器能做到83.29%

回到本次腾讯优图登顶世界第一的 MegaFace 比赛。根据腾讯优图团队的介绍,MegaFace是业界第一个对海量1:N人脸识别技术进行评测的人脸识别竞赛。海量1:N人脸识别技术应用前景更广,难度也更大。

他们说,作为一支深耕人脸识别技术的团队,参加这个比赛几乎是技术发展的必然选择,也是技术沉淀的最好证明。2015年起,团队就已经将1:N人脸识别与检索技术定位成重点研发方向。能够拿下冠军,认为最大的优势是腾讯这个平台:“因为平台优势,我们能够收集到更多更好的数据;因为平台优势我们能快速构建GPU集群,加速我们的训练;因为平台优势我们能吸引更多的人才,这才是在现如今飞速发展的AI领域利于不败之地的根本”,腾讯优图团队对新智元表示。

凭借腾讯作为互联网巨头强大的平台优势,即在数据、计算资源、人才上的积累,优图得以快速进步并且登顶多项AI 竞赛世界冠军。

聊一聊细节,本年度MegaFace 比的是100万级的大规模1:N人脸识别任务。这一比赛项目难度在哪?

腾讯优图团队向新智元解释说,提到难度总需要一个参照物,AI算法最好的参照物就是人。以前人脸识别算法的标杆是LFW。LFW测试的是1:1人脸验证的能力,人在这方面的能力在99.2%。目前机器学习算法最好的结果是他们刚提交的99.8%。而在MegaFace这种100万级的大规模1:N人脸识别任务中,人类的平均准确率在23.9%。而机器学习算法最好结果是他们刚提交的83.29%。这个准确率还是不考虑时间成本的。

“如果说像 LFW 那种1:1人脸验证场景机器可以替代人类进行工作,那么 MegaFace 这种1:N人脸识别场景机器就是完成了人类不可能完成的任务”,腾讯优图团队对新智元表示。

在图像识别,或者说人脸识别上,大家了解得比较多的是 ImageNet, 那么 ImageNet 和MegaFace 有何区别?腾讯优图说,二者最大差别就是一个是通用物体识别的评测,一个是特定人脸识别的评测。MegaFace 和 ImageNet是两个不同领域的比赛。

相比通用物体识别,人脸识别技术在20年前就已经有非常多的业务落地应用,优图团队介绍,他们人脸识别落地项目非常多,所以关注LFW、MegaFace比赛也是必然的。他们认为,学术界和工业界还是需要有一些分工的。

他们也谈到,许多最新的技术很多都是从 ImageNet 这类竞赛里面产生的,这一竞赛对整个业界的推动作用不容忽视的,因此腾讯优图也会对ImageNet也会持续保持关注。

技术细节:多机多卡的TensorFlow集群训练平台

具体到技术细节。优图团队介绍,他们使用的是多机多卡的TensorFlow集群训练平台,这是优图工程团队独立研发的机器学习集群,基于TensorFlow底层接口,并在上层构建了集群调度、存储和管理的框架,支持大多数网络模型以及优图特殊的网络模型,通过将分布式计算引入深度学习,不仅大幅缩短了深度模型训练的时间,同时提供了训练超深神经网络的能力,把深度学习能力提高到单机无法达到的高度。

这一平台也是通用性的深度学习工具,不仅面向人脸模型训练,同时可以支持图像、音频上的其他研究需求。

本次比赛,优图的另一个技术亮点则是集成了三个360、540、720层的类似Inception-resnet的深层网络。被问到为什么会想到这样一种设计思路? 优图解释说,对单个网络来说深度越深网络性能越好,但训练和识别时间也相对更长。不同深度的网络集成的时候互补性更好。所以他们采用了大网络和小网络融合的方式。融合都是会提升效果的,融合准确率比单个模型高。这种方法的优势就是可以用更短的时间训练出融合性能更好的一组模型。

另外,腾讯自研的人脸识别引擎Uface是优图团队目前公开的技术成果之一。据介绍,模型结构参考了Inception-resnet,但是具体结构都是根据任务需求自研的,比如优图人脸识别的祖母模型族。关于基于Boosting人脸形状回归模型,他们也基于学术界的论文,进行了很多创新,比如模型的量化压缩,从100MB到2MB,采用从整脸到器官的层级模型,实现了精度的显著提升,并用rank-learning算法对多次回归结果进行融合,避免出现大的偏差,而且进一步提升了精度。

谈到数据,优图官网上介绍说“立足腾讯社交数据大平台,收集标注了千万数据,拥有海量数据分析与人脸、图片训练集”。那么多数据,他们是如何标注的?优图团队介绍,在优图的所有标注任务他们都会通过聚类,视频跟踪、非监督学习等技术手段来最大程度的减少人工标注量,大部分的数据,识别模型都是可以很好的进行处理。

他们只人工标注那些目前模型难以区分的数据(所有数据均为公开数据或者已经获得授权的数据,且已对数据信息进行脱敏处理)。优图有专业的标注团队,可以高效的处理这些困难的样本数据。

活体检测:腾讯优图唇语活体检测

活体检测是人脸识别商业化的重要一环,目前被广泛地应用到各类人脸识别APP上,但是这种方法会有一个漏洞,就是难以防住真人视频或者合成的视频(例如3D模型或者换脸算法)。2017年的“315”晚会,主持人现场演示了攻破人脸识别手段,其核心就是利用活体识别的漏洞。在演示过程中,一张他人的静态自拍照,通过技术处理,可以变成能眨眼睛、能微笑的“伪活人”。甚至还可以利用这张自拍照,借助3D建模技术,让自己“变脸”成另一个人,轻易骗过登录系统,成功“黑”进对方账号。

在采访中,优图团队也对新智元介绍了他们的人脸活体检测技术:优图在2014年下半年开始研发人脸活体技术,当时摇头、眨眼、张嘴随机动作方式最为普及。经过多方论证后,优图并没有采用这种主流方式,而是独家首创了一套唇语活体检测技术。

优图团队对新智元介绍说,相对主流的方式,唇语活体技术有多项优点:(1)随机性高:摇头,眨眼,摇头集中动作生成随机序列,其变化方式不足10种,通过预先录制视频的方式有很高几率匹配上。但唇语的方式,采用的是随机数字串方式,随机的种类有数万种,因此,通过提前录制视频的方式发生匹配的概率极低。(2)交互更自然:阅读一串8个数字交互简单自然,用户更乐于接受。反观摇头模式,用户体验不自然,而且用户在摇头过程中会经常出现人脸离开摄像区域。(3)交互过程人脸稳定,更有利于人脸验证算法:近几年人脸验证算法虽有大幅进展,但对人脸质量仍有一定依赖。人脸越正,画质越好,人脸验证的准确性就越高。在采用摇头、张嘴、眨眼等方式时人脸动作较大,会出现人脸姿态不正或者运动模糊等问题。相对而言,用户在数字阅读过程中能更好的保持人脸的问题,有效保证人脸验证算法的效果。(4)引入语音,声纹辅助人脸,安全再升级。和一般的运动交互方式不同,唇语活体算法不仅能获取到图像序列信息,还能获取到音频信息用于声纹验证,这在人脸活体基础上又增加了一道防线,更加安全。

应用:在主流智能手机上耗时可以控制在50ms以内

目前,优图AI技术已经在QQ ,空间,QQ音乐,微信,腾讯云,广点通,全民K歌等众多明星产品中落地应用。对外,优图与联通、南宁公安,苏州公安,滴滴,微影时代,西咸工商等众多政企客户展开合作,加速智能政务发展,智能城市的建设。

实际应用中的技术细节,腾讯优图对新智元说,当前优图大部分的人脸技术都已经在客户端落地,包括人脸检测、人脸配准跟踪、部分人脸活体技术等。

目前,他们的人脸识别系统在主流智能手机上耗时可以控制在50ms以内,人脸识别模型数据可以控制在2MB以内。50ms代表了准实时,优图的多个人脸算法都达到了准实时,像人脸配准跟踪算法更是达到了300fps的超实时速度。另外移动端的App对应用包的整体大小或者资源文件的大小有限制,一般人工智能算法的模型都以资源文件方式下载,当前常规网络环境(wifi,4G)的下载可达到1M/s, 下载一个2M的模型仅需要等待2秒,所以把模型限制在2MB以内更贴近实用。基本上所有的用户都能接受这样一个等待时长。

一个开放平台,To B 也 To C

优图近年来强调的一个重要理念是“开放性”,在采访中,优图团队表示,团队的开放性的理念最重要的是打造一个“AI的开放生态”,当前主要体现在“技术和产品的开放”,通过开放平台以及腾讯云平台,将团队的技术对外输出。

腾讯优图开放平台(open.youtu.qq.com)的核心主旨是将优图核心技术,前沿的研究成果对外输出。将深度学习复杂的算法模型转换为方便,简单的云服务,以API和SDK的方式,面向行业开放。

当前通过优图开放平台,我们已经对外输出了20多种API,涵盖“人脸识别”“图像识别”“OCR识别”等核心领域。 除此之外,还在腾讯云的大平台上架设了“万象优图”的AI板块,与腾讯云现有产品能力打包,增强腾讯云服务的能力,通过腾讯云为企业级大客户提供服务。当前优图开放平台和腾讯云*万象优图已经为上百家企业提供服务,日均调用量达数十亿。

那么,优图的模式是不是一个主要为行业提供商业解决方案的To B 平台?优图团队解释说,为行业提供商业解决方仅仅是团队所做业务的一块重点。从产品的角度说,商业级的产品解决方案主要联合腾讯云团队,互联网 团队等渠道在联合推进。与此同时,他们也在探索一些新的方向和合作方式,例如与腾讯内部基建团队合作的“人脸识别门禁”等产品,很快会在腾讯各地的新办公楼看到。

在 To C领域,腾讯内部上百产品业务线均有接入优图的AI服务,日调用量数十亿。像腾讯的明星产品QQ,QQ空间,微信,P图,QQ音乐等,目前都有深入的产品合作。大家熟悉的QQ音乐的哼唱识别,空间直播中的智能美妆,天天P图这些产品的背后,都是优图AI技术的落地。

关于腾讯优图

优图是腾讯人工智能的三大技术支柱之一,其余两个团队分别是腾讯 AI Lab 和微信 AI 团队。优图团队创立于2012年,专注在图像处理、模式识别、机器学习、数据挖掘等领域开展技术研发和业务落地,至今已有近5年的历史。

目前,优图团队成员将近百人,大都是来自于清华、北大、中科院、上海交大、浙大等顶级院校的博士、硕士。目前优图实验室有研究、产品、工程技术等团队,分别负责AI领域的研究和技术在产品,业务中的落地应用。

封面图片说明:2月13日,QQ空间、腾讯优图携手唯品会 亮相纽约时装周,举办业界首个“AI 时尚”大秀。腾讯优图借助AI人脸识别与图像处理技术,分析2016年QQ空间相册千亿公开照片,结合唯品会95后服装销售大数据,发现“95 度黑” 等中国 95后流行色彩及时尚品味。

0 人点赞