引言:6.14日“腾讯创新日:科技年技术盛宴”代表腾讯各个事业群技术实力的四级专家、腾讯微创新2016年度创意获奖团队欢聚一堂,一起畅谈AI、系统安全、架构设计、社交传播、推荐模式、游戏引擎等前沿科技和腾讯应用创新的台前幕后。来自SNG的优图实验室副总监、专家工程师吴永坚,就腾讯优图,产品驱动的AI创新,给大家进行了分享。
近日来,腾讯优图实验室连续刷新了两个世界记录:在LFW无限制条件下人脸验证测试中刷新了最新成绩99.80%;而在国际知名人脸识别数据库MegaFace中以83.290%的成绩在百万别人脸识别测试取得世界第一。本次分享介绍了在取得世界第一的背后,优图团队的成长历程,以及近来在人脸、图像和音频技术上在产品中的落地的黑科技,并介绍团队如何在扎根公司产品业务同时,坚持从产品和技术的结合来驱动人工智能前沿技术在公司中的应用和创新。
以下为吴永坚演讲实录
大家下午好!我是来自于优图实验室的吴永坚。下午分享的内容,主要是从应用和研究方面在公司中怎么样去进行创新。其中在分享主题中,其实已经强调了两个点,一个是趋势驱动,另外一个是场景驱动这两点将会贯串我的这次分享。
我们是SNG下面的优图实验室,从2012年开始组建这个实验室,前身是腾讯研究院下面的QQ影像客户端的团队,目前主要从事人脸、图像和音频等几个大领域的研究和应用落地。
今天我的主题主要围绕优图团队,讲述这几年团队在趋势和场景驱动下的研究和应用创新。在开始说这些之前,要先讲两个方面。第一是学术上的研究趋势变化。这里摘录了20年来在图像上面有相关的技术变化和创新,可以看出来,在整个行业发展里面有一些共同点,比如说前两年的时候,最开始更多在专注于图像视频的编解码方面的研究,因为它处于技术最底层,关系到数据存储和传输,因此必然是最先被研究。后来,当编解码研究趋向成熟之后,慢慢转到更上一层的内容分析,这个时代就更新专注在的图像内容上的分析和研究,例如图像处理、人脸相关技术等技术都这个时候慢慢发展起来。到了更后面,随着数据的迅速增长,研究内容慢慢转向到基于数据驱动的研究,包括06年著名的Hinton发表的利用RBM编码的深层神经网络的Science Paper,对深度神经网络学习的萌芽也是在这个大背景下生长出来。
说完学术发展之后,再说另外一个方面,就是传统的工业界。因为技术上还有很多不成熟地方,原来做图像领域的是不怎么不吃香的。例如我刚毕业时候,当时吃香的是网络、数据库,更偏大型的工业或者工程应用。那时候做图像研究的大部分是去这样的公司呢,例如医疗、AO办公系统、交通、自动化、安防等等。这些公司都有什么特点:第一是垂直化,每个领域都专注在具体的行业里面,例如刚才所提到的医疗、交通、方案等;第二是单点,就是说图像的数据只是在某个领域去用,但是点与点之间没有特别大的关联,场景比较固定,数据量不大,因此导致这些领域的发展比较缓慢;第三是用户,那时候技术主要面向专业技能人员,而对普通用户大多数是不怎么有好。可以看右上角,例如那时候修图的软件是Photoshop,并所有人都可以用,而是专门的人。所以当时的图像应用是应用在具体的领域,而不是像现在拿起一个APP,就可以使用。所以当时的发展受到很大的制约,和当时的意识有很大关系。
下面说一下在互联网方面的趋势和发展。我更多是从优图团队自身发展来说,整个团队和整个公司里面发展出来的一些轨迹是怎么关联出来的。
这是我总结出来的整个团队的研究内容和业务落地的趋势发展和内容变化。和我第一页里面所说的整个行业变化实际上是相吻合的,我们刚开始时候做的不是人脸等相关技术,而是做和存储、传输相关的技术。为什么是这样的发展,是因为整个互联网发展刚开始的时候根据摩尔定律,带宽和存储成本必然比现在要昂贵不少,所以最重要的是专注在图像的基础建设,特别是图像存储和传输相关的技术,这些技术做好对公司的成本控制有非常重要的意义。随着互联网本身基础慢慢发展,所以慢慢从PC互联网过度到移动互联网,也就是从2010年左右。时代的发展图像研究不止是存储和传输,更多是个性化内容的强调,例如当时大家最关心技术就是如何制作出独特的图像滤镜。到了2013年之后,整个移动互联网已爆发起来,推动了图像在更多领域的落地,发展出更多的技术和更多的新的玩法。接下来我会根据这些发展变化进行展开的讨论。
第一个阶段:PC互联网阶段。最开始的基础部分,如刚才所述,当时公司层面很少做基于图像内容的分析,更多是想怎么去降低图像在存储和传输过程中的成本。刚开始公司没有专门的团队去做,都散落在业务中各自尝试。而做的办法往往都很原始和粗暴,更多是从架构和后台宏观层面去完成。可能大家都上过这门课《海量服务之道》,其中很重要的一个指导思想是“柔性可用,有损服务”。简单的说就是当资源有限时,只能把有限的资源投入关键的环节,所以大部分的工程哲学都是通过这个核心思想的变种,例如柔性服务等等。空间是中国最大的图片存储平台,空间中的图片会根据尺寸分为很多层级。当不同的应用场景,动态切换图片的层级。如到周末的时候带宽紧张,就切换到相对小尺寸的图片层级上去,而且结合消峰和错峰等不同时机对图片的资源限制,对用户来说是无缝的使用,同时很好的控制了带宽成本。但究其本质来说,是否是对图像内容本身的的研究呢,实际上不能算。印象中当时公司也没有专门没有进行研究,或者有的话也是比较简单的尝试,例如尝试不同的图片格式JPEG、PNG等等,看一下大小是否变小,这是最简单的方法。还有就是调整JPEG质量因子,调小看质量是否变差,或者直接把图片中的EXIF等冗余信息删除掉。本质上还是没有对图片编解码底层进行研究。
优图团队在2012年发现了这个方向,我们开始想有没有可能从图片内容中去研究去挖掘图像内容的本质的东西。因为只有把本质了解,才有根本的提升。其实优图的名字由来也是基于这个出发点,优图就是基于图片内容去促使图像进行优化。我们认为这个方向在公司当时还里没有专门的团队来做,所以可以尝试,而且因为它是一个基础技术能力积累,无论短期成果如何,但长期来看肯定对整个公司是有深远发展意义。所以我们开始对底层JPEG编解码进行研究。我们团队首先去尝试的是优图压缩项目。那什么是优图压缩呢,就是怎么去智能选择较低质量因子,相对高的质量因子相比人眼看不出图片内容的区别。我们团队就基于这个小项目,从此整个团队就开始在图像领域进行探索。
优图压缩项目,在当时对公司的产生有很大意义,是2014年的腾讯年度微创新之一。因为它用的方法比较取巧,对于用户和业务来说完全无感知。所以该技术推出之后迅速在公司很多业务中使用,实际效果而言在流量和带宽上取得的非常可观的收益。
当然,图像的传输和存储技术一直在演进。比如说最近的技术发展,SNG下面有一个音视频实验室,他们长期在这方面进行技术的积累,例如sharp组件和tpg图像编解码是在音视频实验室在图像编解码领域上技术积累的成果。随着深度技术的发展,这方面的技术也会不断更新。例如我们最近在和空间合作的一个项目,深度超分辨率项目:空间手机端看一张尺寸较大的图片的原图,通过下载其实是很占流量。我们先把它缩放到较小的尺寸然后在下放到手机端,手机端得到这个小图之后再进行智能的“超分辨率”扩大,人眼看不出来是从小图扩大而来。当然这牵扯到深度上的超分辨率的模型研究,怎样做到从小图到大图人眼看不出来区别;而且它的要求要在手机本地运行,所以对性能要求很高,要让用户感知不到,因此如何让深度模型在手机端上高性能运行。尽管这个项目不是通过编解码角度去触发,但从另外一个侧面去解决存储和传输上的问题。
接下来下一个是从PC到移动互联网过度时代。从最开始的存储和传输慢慢转移到图像内容本身。大家当时有类似这样的经历:用数码相机拍完照片就从相机里面导出来,然后在PC端里面用“光影魔术手”或者“美图秀秀”等软件进行简单的处理。实际上说明读图的时代已经悄然来临。来到这个时代,研究内容也开始发生变化,从最开始的编解码研究到基于图片内容进行研究,例如滤镜技术是当时的很多图像软件领域所关注的技术。
那么在这个时间,图像研究领域上的需求有什么变化?我归纳出来有三个:第一,高品质的图片需求。随着基层的网络的发展,图片越来越追求高的品质,而不像以前随随便便拿一个看不清楚的图也能忍受。下图是我们团队和空间合作的一个创新:
原来在网页中呈现一张图片的缩略图时候,工程师会缩小原图,但考虑长宽比例,为了能放下缩略图,通常会从缩略图的中间截取一个小图,但是截取出来图的内容通常来说不是这个图片所要代表的内容。下面我们采用了一种“内容显著性”的技术,把图片里面最需要所表达的内容智能裁剪出来。所以我们称之为“智能剪裁”,也是我们和空间内进行的合作成果,效果非常好。这个很小的创新获得了当年的年度微创新,用户口碑非常好。所以对图片内容的需求也慢慢起来。第二是关于隐私安全领域的,腾讯每天上传的图片,怎么智能分析出哪些图片或者视频是含有黄色内容。这个能力关系到公司的安全领域,因此该技术一直在迭代更新经历了从最开始的基于种子图片相似度检索到现在基于深度的主动打击的发展。第三是用户层面的互动和娱乐领域,原来我们团队前身做的QQ影像,一款具有浏览编辑图片的软件,也是属于这个领域。
说到此,还有一些延伸的话题和大家讨论。第一个话题是,在PC互联网时代,图像领域和后面所发展的情况有很大的不同:那时候没有那么出现一些现象级的现象,例如天天P图的武媚娘妆的爆款等等。而优图团队当时倒做了一个现象级的项目,就是朋友网的高校大众脸。
当时朋友网里面有很多高校图片,要找对应高校的学生的平均脸。大家可以看一下它的效果,这是当时做出来的高校大众脸的效果,用户非常的喜欢。说回来,当时传播的最大一个特点,PC互联网传播力和当今的移动互联网相比非常有限,很少会出现一些现象级的爆款。如果放在今天来做,高校大众脸则很可能变成一个现象级。正因为PC互联网的载体的传播力有限,所以导致图像技术需求并不如现在的旺盛,发展自然也比较缓慢了。
另外一个就是关于优图团队在人脸技术上的探索开始。我们在和空间进行合作的时候,空间提出需求,能否除了锐化需求之外,在人脸方面进行探索。当时我们感觉人脸技术研究这个方向存在很大的不确定性,包括技术的成熟度和用户的接受程度等。但我们进行了技术的量化分析,对空间某天的上传图片进行了人脸统计,发现有一半的图片以上都包含有人脸,可见用户上传图片中人脸的占比是有多高。尽管当时看不清楚人脸技术之后作用,但还是觉得应该尝试下这个方向。优图团队就开始在空间做一些圈人功能,把人脸上传之后能自动标注出谁出来,实际上这个就是一个人脸识别的技术的应用雏形。这也就开始让团队在人脸方面的探索,为后续人脸技术爆发风口到来奠定了基础。
接下来到了后面很辉煌很火热的时代,就是移动互联网时代的到来。下图是在中国一个重要的历史性时刻,那就是2012年年底,中国互联网发生了一个最大的转折,通过移动端上网的用户反超了PC端,正因为趋势变化,所呈现的技术驱动内容也发生了改变。载体的发生改变,图像领域研究内容和之前发生了改变,更强调图像内容的个性化。当时国外有一个很流行的词“selfie”,国内叫“自拍”,可见基于人脸的玩法越来越流行。
在移动互联网前期,团队也不确定人脸技术后面会发展怎么样,但是我们继续补齐技术的缺口。所以我们通过这个时间点,积累了人脸检测、五官定位(就是你的人脸上面五官是怎么定位出来的技术),还有人脸属性,例如你是男是女、笑容程度怎样等。我们积累了这些技术,刚开始不已确定到底有什么用,只是在空间里面检测出人脸,给用户一些提示,但是对用户而言也是可有可无的作用。所以当时我们也很焦虑,驱使我们到处销售技术,跟更多的产品团队去合作。例如和天天P图团队,我们一起讨论到底基于这些技术可以做出来怎样好玩的产品。先后尝试过颜值指数、夫妻相指数、开心指数等一系列的运营活动。刚开始在人脸上玩法的尝试,大家都不确定人脸玩法当时是否被人所接受,只是先做下去看看。
奇迹总是在不经意之间就会出现,而前提是持续的付出和投入。我们技术和产品磨合了大半年时间,在15年年初出的一个武媚娘妆就突然成了网红爆款。后来我们在复盘这个过程,到底武媚娘妆本身的技术发展有什么本质上的变化么,实际上也没有太多的本质变化。武媚娘妆里面用到的技术和几年前的技术类似,只是技术载体发生了改变,从PC时代迁移到移动端,和我们现在所说的人工智能时代,本质上还是技术变革发展不一样。所以出现了PC时代人脸技术不火,而到了这个时代就特别容易火,因此相关的人脸技术从此也倍受产品的关注,从而极大促进技术的发展。
新的认知创新肯定带动产品创新的方向,因此天天拼图所做的很多都是基于人脸的玩法,下图是自此以后天天P图基于人脸的运营活动。开始是不同场景下的人脸美妆玩法,后面是不同场景下的换脸玩法,但本质都没有变,都是基于人脸上的玩法。从原来不是基于人脸的玩法到现在基于人脸的玩法,这是认知升级下的创新,从认知变化导致产品的潮流和思维也在变化。所以大家也觉得原来没有什么用的人脸技术到了新的时代有了很重要的作用,这是时代变化改变了认知认识所带来的。
火爆之后带来的是平静和思考。这个阶段,与传统行业不同,移动互联网时代的图像技术是直接面对用户,而且更多是在“玩”的娱乐层面。我们团队在想一直做这样偏玩的东西是否能持续,毕竟爆款有运气成分,长远看并不会持久,我们团队也重新思考后续发展的方向。但时代发展太快,留给我们的思考的时间并不多很快又进入了下一个时代:移动互联网中的互联网 时代。这个时代强调是很多传统行业和互联网思维相结合,因此也给很多技术带来了更多的广泛的落地场景。
回到技术本身发展,从2012年之后,深度学习有很大的突破,在图像、人脸等识别问题上取得了很大的突破,如下图,这些背景大家了解比较多,在此就不在展开。
基于深度技术迅速发展的背景人脸技术也发生了很大的变化。在2014年之前,我们都是基于非深度的方法去做,当时做法是把人脸特征纬度做得越来越大,就是为了很好去发挥传统方法的能力,但传统的方法做到96.5%的准确率已经遇到了上升空间的瓶颈。随着2012年深度学习在Imagenet比赛的出色表现,团队很早关注到这点,也很早在深度能力进行布局。自从用了深度学习能力之后,识别性能从从96%直接提升到了99.65%,刷新了当时的LFW上的世界记录。而人的识别能力在这个数据库里面是97%左右,传统方法我们做到最好水平是96.5%,所以技术的提升也带给我们的很大的认知上的变化:原来人脸识别的事情现在可以不需要用人来干预了,只要交给计算机就好,因为人的能力都没有它好。
有趣的一点是,技术从刚开始是面向一些垂直的方向,到后来互联网把它变成了to C的方向,到现在又重新回顾了垂直方向里面去。在这个时代里面必须要提及的是微众银行。它最大的特点是什么,就是线上的金融银行。原来需要线下开户过程,现在完全可以线上开户,原来线下必须要靠人工进行判断“你是不是你”这个问题在互联网上就变得很难推动,因此用机器的角度去判断就成为这个问题解决的关键。所以人脸技术在优图中发展更快的也是在这里完全打开,这也是时代所驱动的技术发展很好例证。
当然,针对线上金融的场景,除了人脸识别研发之外,我们还要补充做了活体验证,就是验证进行验证的人是否一个活生生的人,而不是在用冷冰冰的图片或者视频去进行的恶意攻击。这是联大小王卡人脸激活项目,团队的人脸识别能力在这个项目里面了很大的验证,并推动了人脸多项技术的发展,保证团队人脸技术在行业中的领先地位。
随着时间的推移,从互联网 时期慢慢迁移到近期,这也是最近新的说法,就是人工智能,很多行业和人工智能的结合都会焕发出新的面貌。大家可能注意到,近期互联网女皇Mary Meeker在最新一年的报告中明确指出,现在互联网人口红利已经慢慢消失,从去年来看,移动互联网时期基于商业模式的创新也逐渐变少了,例如去年创新比较明显也就是摩拜单车共享经济的创新,比起前几年显得平静不少。这代表互联网商业模式已经到了瓶颈,基于商业模式创新会越来越少,发展趋势逐渐回归到本质上的提升,也就是技术本身。
深度学习的近几年的发展和变化,呈现出来一种更深、更强和更多的趋势。基于这样的技术发展大趋势,最近优图团队的技术能力也有本质的提升,从最开始的99.65%提升到现在的99.80%。中间有很多变化,包括我们的深度网络等等研究,也做了很多的变化。大家可以看一下,这是人脸上的模型发展变化。
说明当前的深度是越来越深,从刚开始说只有19层,但是现在为了某一个能力提升到了720层,它和开始的本质上已经有了比较大的变化驱动。这个能力和99.65%有了能力上本质的提升。两年前当时用了很多模型组合才得到99.65%的能力,但是现在720层只有一个模型,就达到了99.80%的水平,性能和实用程度上有了质的飞跃。当然,研发上有很多的难题去客户,例如层数接近千层的情况下保证训练的时候的梯度消失而导致训练不下去的问题,或者还有层数过深导致训练时间很长等问题,都要通过项目一步一步的把困难解决和把能力积累。
刚才讲述的主要是技术上的发展,现在讲另外一个点,就是技术提升带来最大的变化应用层面上的变化,人脸技术的应用层面就比前几年要多不少,也很好解决了几年前一直困扰觉得人脸技术只能应用在一些类似P图的运营活动。接下来,我会从社交应用、商务政企应用、安防领域应用、智慧建筑、公益活动等方面来说明人脸在这些领域上的如何应用落地。第一是社交的应用,这是我们去年的时候在和手Q这边进行的合作,叫视频挂件。
可以看到这个视频,请大家关注重点并不是这个女模特,而是她脸上的妆容。这是技术实时贴合上去,实际上她并没有化妆。实时美妆的难度是要求很精准的人脸五官配准的能力,要求非常高,要做到技术完成做到实时。这是从前一个时代到现在又一个能力变迁,第一是要求人脸配准准确度更高,第二是性能更好,毕竟是使用在视频上,而非静态图片上其实这也是一个技术升级所带来的产品上的玩法上的升级变化。这是另外一个使用在社交应用中的玩法,实时的人体人脸前景和背景的分割能力。目前已经完全做到手机端上。这和刚才介绍的实时美妆实际上是异曲同工。上一个是是加妆容,这是把背景去掉换一个新的背景。在2C玩法来说和之前有很大不一样,因为整个带宽网络起来了,直播从去年到现在也一直处于风口,所以从原来基于图片的玩法变成现在的基于视频玩法。
第二个方面是2B和2G的商务的政体服务,基于腾讯云这么好的一个平台,目前优图把自身能力可以更好的向外推广。
第三个方面也是产生很大的变革,就是安防方面。公安使用得最多,例如视频里面监测出是否有一些嫌疑人,原来是基于人肉去看,根本看不过来。这是我们做的一套系统,叫做天眼系统,可以自动检测出类似犯罪嫌疑人的照片。
上面这个图片是基于几十万人级别的检索哭,可以及时把检测出来的人脸的身份查找出来。所以这块在安防中有很大的作用。举一个最近真实的例子,这个是我们和苏州公安合作案例,这就是一个盗窃案,苏州公安通过腾讯优图的天眼系统对可疑视频进行可疑人员的抓捕。例如这个嫌疑人,和库里面的人进行比对。计算机推荐了最相近的前三的候选人,民警确认是第二个人,然后跟进帮助警方很快取得了破案。另外一个例子就是天津机场,所做的内容相似,在机场里面去结合人的识别能力。
第四方面是智慧建筑领域。左边是滨海大厦,现在我们把优图的能力也整合到这个大厦中。目前把我们的技术能力放在一个小小的计算盒子里面。为什么放在盒子里面,是因为把优图能力尽量整合到本地能应用,而不通过网络,毕竟走网络所带来的时间开销会很大影响用户的体验。目前应用在滨海大厦中的人脸闸机和楼层门禁。基建应用估计要等到明年,但目前这个楼层门禁的能力已经装在优图实验室中进行应用。原来要刷卡,现在只要直接走过去,不需要过多的配合就可以自动打开门禁,极其的方便。这是一个很切合实际实的解决问题的方案。
最后一个应用领域就是公益。近期我们和福建公安合作的就是一个很好的技术回馈社会的案例。我们把技术和民警结合,对于失踪老人等等案件都可以得到很好解决。通过短短三个月,就找回了一百多个人。在昨天6月13日,腾讯优图联合了互联网 、腾讯云腾讯志愿者发布了优图天眼寻人平台,为了把这样有温度的技术更好的回馈到社会中。
最后总结一下。也是回到今天的主题,腾讯创新日。所谓的创新,不一定要从很大层面的从无到有的创新,更多是从身边的微创新开始。优图团队的成长历程其实就是从业务一个一个的微创新去做起。先有一个场景,通过这样的场景去建立我们的能力;再通过这些能力去拓展更多的场景,从形成一系列的能力。通过一个个小的场景把我们的能力建立出来,找到很多场景,通过这样的迭代,把技术积累从一个点变成一条线,再形成一个面的体系。今天分享了优图这样的能力和场景相互促进和拓展的过程,这份经历和今天主题腾讯创新日也得到很好的呼应。