近日,36氪和“优图团队”进行了接触,他们是腾讯内部专注于图像处理、模式识别、机器学习、数据挖掘等领域的核心技术团队,由毕业自清华、北大、中科院、上海交大等院校的博士、硕士组成。
腾讯优图团队隶属于腾讯社交网络事业群,基于整个腾讯的社交网络平台,为 QQ 空间、腾讯地图、腾讯游戏、等 50 多款产品提供图像技术支持。每天 QQ 空间有 2 亿上传图片的活跃用户,团队单日最多处理照片达 6 亿张,累计已经分析处理了超过 300 亿张照片
36氪:作为纯粹的技术团队,怎么平衡技术和产品之间的矛盾?
我们首先会对一些关键技术,如人脸识别、图像识别、深度学习等做前瞻性的技术,进行提前布局,保证相关产品能在市面上能够稳定领跑。
例如我们在进行人脸图像对比研发中,衍生发展出比对两张普通图像相似度的方法,当时并没有立即挖掘出具体的应用场景,处于储备状态。但过了 3 个月,电商部门急需商品图像对比技术以实现自动价格分析,这个技术迅速落地了。
另外腾讯旗下产品线比较多,尤其是图片类的产品,所以我们在图像处理上的技术一般都能比较快落地;其他产品线也会和我们保持长期沟通,也会根据产品和用户的需求,及时调整技术方向。
36氪:Amazon最近发布了Fire Phone,将图像识别技术运用到电商领域,腾讯内部有类似的技术,以及在和京东合作类似的产品没?
我们认为 Amazon 的 Fire Phone 是一个非常好的产品,可以打造 Amazon 的用户闭环,这是个不错的尝试,给用户带来的体验值得期待。
至于腾讯有没有做,还不大方便评价。
36氪:既然是腾讯内部的“图像技术”核心,为什么之前微信对外开放的“图像识别技术”却不是出自你们部门?这个是因为微信属于更为独立的产品部门,还是说“研究院”这样的组织结构,在腾讯内部也会有多个团队竞争的情况?
虽然图像识别是一门比较垂直的技术,但是由于应用场景不同、用户需求的差异会使得该技术从研发和实施方案都存在很大的差异,所以由于产品的定位、功能及面向的用户不同。微信拥有自己的模式识别团队,以便更好地对针对微信相关功能进行图像技术的研发和落地。
我们他们并不是竞争关系,而是各自专注于不同产品需求的技术研究。而在日常,我们也会与微信图像团队之间保持良好的沟通。
36氪:微信开放了自己的“图像识别”技术,那优图团队有没有对外开放的打算,如果开放,相关的标准是什么呢?
因为在腾讯内部,像 QQ 空间等产品对图像技术有着大量的需求。所以短期内我们还是专注于公司内部业务的需要,投入到精品技术的深挖上面。当然我们也为腾讯的战略合作伙伴,如大众点评、京东商城等提供了关键的图像技术。
未来有合适的机会,我们也愿意开放关键图像技术提供给有需要的互联网产品团队使用。
36氪:大家都觉得图像识别和人脸技术很有未来,但是没有特别好的落地场景?对于具体落地应用场景、未来规划和实现路径,腾讯是怎么想的?
图像识别和人脸技术一直都是学术界、工业界、互联网行业的未来技术发展热点,其应用范围、落地场景非常广泛。举例来说,互联网安全就是一个很好的人脸技术具体落地场景。用户提前预留人脸照片,那么当用户密码被盗时,可以设置人脸自动验证步骤,只有照片本人操作才能取回自己的密码,这样可以做到更有效保护用户数据。
但是尽管人脸识别在类似 LFW 的标准测试集上的精度不断提升,仍然无法满足一般场景的要求。我们认为当前图像识别技术没有特别好的落地场景的原因,除了技术上还是无法消除光线、角度等环境因素的影响,还在于信息通道没有打通,即需要信息的用户与图像信息之间的连接没有有效建立。
36氪:你们在在图像分析、人脸识别、人像美颜、图片美化等领域都有比较核心的技术,但为什么这些领域比较成功的产品,都没有出自腾讯之手?
我们主要精力在解决 QQ 空间等基础产品对图像技术的需求,一开始并没有做独立的移动端图像应用这样的规划。确实目前一些细分的图像处理市场上已经有了优势产品。
我们其实也有一些产品还不错,例如我们之前推出的“水印相机”,同样属于腾讯内部的战略级产品。未来我们也会基于差异化的角度进行图像类移动应用创新,推动相关技术和产品的发展。
36氪:腾讯目前在这方面的技术积累如何?水印相机等产品只是实验性产品?还有没有其它内部研发的产品?
我们拥有图像压缩和美化、图像识别、人脸分析识别等全套技术,并且这些技术都已经达在公司内部数十个业务中广泛使用。我们的压缩技术每年为公司节省带宽 50G 以上,节省成本数千万。例如易迅电商采用我们的图像压缩技术,可以节省 28% 流量。
另外我们的压缩、裁剪、锐化、人脸检测在 Qzone 全面落地,日处理照片 2 亿张,拥有几亿用户数据;优图 SDK 做为 TFS 的基础组件,服务于全公司各业务如地图、微信、微博、QQ 等。
公司发布的产品都是经过严格测试的正式产品,水印相机并不是实验性产品而是可称之为创新性产品。目前总装机数千万,活跃用户近千万,拥有相当好的用户口碑。
36氪:目前人脸技术在移动端的体验如何?是否可以做到实时?以及具体精度、APK大小?
我们有全平台的人脸技术,人脸检测 800x600 图像,普通手机处理时间 150ms,精度 99%,召回率 95%, APK 大小 209KB。可以达到实时要求,技术指标优于系统自带人脸检测器。
人脸配准器在普通手机上可以达到 40ms / 帧的处理速度,平均像素误差 2.47 像素,平均误差小于 2 和 3 像素的样本比例分别为 33%, 86%。
36氪:有没有使用深度学习技术?
我们已经在研发应用具有很大潜力的深度学习技术,并已经搭建海量计算平台,同时完成了基于 CNN 的图像分类和人脸识别框架。现正在建立更大规模的数据库,以充分发挥深度学习的优势。
36氪:现在很多大公司的“研究院”通常都直接设立在硅谷,为什么腾讯的研究院都在国内,是否意味在图像识别这个领域,国内的相关技术已经走在世界的前沿?
硅谷人才素质普遍很高,但是随着国内互联网技术的飞速发展,本土的技术实力正逐渐接近甚至可以与世界同步。在一些关键的技术指标上,包括人脸和图像识别准确率等等,我们确实都已经达到国际水准。例如图像分类,在国际标准测试集 CIFAR-10 上,我们的识别率可以达到 90%。
同时本土团队也更加了解国内用户的需求。在互联网大数据时代,除了优秀的技术研发能力,技术所依托的平台及其拥有的数据库的重要性也逐渐凸显。
腾讯拥有国内最大的社交网络平台——QQ 空间,拥有海量的图像大数据和海量用户需求、反馈。放眼海内外,这块优势资源可以说是我们团队独有的,这为我们的研究提供了很大的支持。
36氪:那你们怎么看百度轻拍、魔图等同样采用了图像识别技术的产品,以及如何看待百度的IDL的技术?
我们对这些技术很有兴趣并保持关注,和腾讯一样,百度的图像技术较多地依托大数据。可以看到图像处理引入大数据能力将会成为互联网图像处理的一个趋势,并对行业带来深远的影响。
36氪:你们幸福吗?
我们鼓励技术人员自发驱动各种创新与探索,鼓励大家提创新的想法,经过评估,提出者会作为短期研究项目的负责人,给与各方面的支持,最终做出一个具有产品化潜力的 demo;在平时,团队也会定期进行 team building,比如参加真人 CS,踏青、篮球、足球、斯洛克等活动。
所以我们觉得很幸福。