鱼羊 发自 凹非寺 量子位 报道 | 公众号 QbitAI
CVer翘首以盼的CVPR 2021,它来了它来了。
本届CVPR论文录用率,较去年略有回升,但竞争依然激烈——在7039篇有效投稿中,最终有1661篇中选,录用率为23.6%。
继去年华人一作包揽最佳论文、最佳学生论文、经典论文奖之后,今年的CVPR又延续了“华人主场”的气质:
单看最佳论文奖候选名单,32篇中就有18篇有华人学者参与,足可谓占据半壁江山。
又比如年年霸榜的商汤科技,此番共有66篇论文入选,并且还是学术、产业两开花的那种,其中还有一篇入选最佳论文候选名单。
入选最佳论文候选名单
照例,我们先来探究一下这份成绩单的“质量”。
就先从入选最佳论文候选名单的NeuralRecon: Real-Time Coherent 3D Reconstruction From Monocular看起。
这是一篇三维重建方向的研究。NeuralRecon是首个基于神经网络的单目实时场景三维重建系统。
具体的效果,就像这样:
△实时重建
不同于以往基于深度图估计与融合的方法,NeuralRecon直接基于图像特征,预测用TSDF(截断符号距离函数)表示的局部三维表面,并创新地提出了一个联合TSDF重建与融合框架。
这样做的好处是,可以让网络学习到三维表面在局部和全局上的平滑先验,使得最终的重建结果准确且具有很好的一致性。
实际上,三维重建是实现沉浸式AR效果的基础。而NeuralRecon这种基于单个摄像头拍摄的视频,实时进行三维重建的方法,就为AR在普通智能手机上的落地应用打下了理论基础。
要知道,为了在手机、平板等设备上实现更好的AR效果,苹果甚至用上了激光雷达这样的传感器。现在有了NeuralRecon,即使是普通的智能手机,也能实现更强大的AR功能。
比如基于NeuralRecon重建的场景,实现这样的效果:
论文链接:https://arxiv.org/abs/2104.00681
以上,还只是商汤这回在CVPR上展示的学术积累的一个方面。
比如,在与自动驾驶息息相关的点云方面,商汤同样有一篇论文中选Oral。
在Variational Relational Point Completion Network这篇论文中,研究人员提出了一个两阶段网络,来从残缺点云中学习关系型结构属性,从而恢复可信且高质量的完整点云形状。此外,论文还生成了一个丰富的残缺点云数据集,可作为点云补全测试基准。
论文链接:https://arxiv.org/abs/2104.10154
而在图像视频编码方面,Checkerboard Context Model for Efficient Learned Image Compression这篇论文创新地提出了棋盘格上下文建模方式,实现了在常用模型上超过40倍的加速。
论文链接:https://arxiv.org/abs/2103.15306
除此之外,在同期举办的挑战赛中,商汤-南洋理工联合实验室(S-Lab)团队一举斩获CVPR 2021 NTIRE视频理解挑战赛三项冠军,包括视频超分辨率、重度压缩视频质量增强(固定量化参数,保真度)和重度压缩视频质量增强(固定比特率,保真度)赛道。商汤研究院团队摘得CVPR 2021 ActivityNet时序动作检测任务弱监督学习赛道冠军。
一窥商汤应用布局
话至此处,可见在这届CVPR上,商汤这个“算法工厂”仍然延续了全能的风格。
并且在此次入选CVPR的论文中,不仅能看到商汤在各个学术领域的投入,还能一窥从自动驾驶到智慧城市,乃至在手机等诸多应用领域,商汤的技术布局。
比如提升屏下相机的成像质量:
△画质恢复前后
论文地址:https://jnjaby.github.io/projects/UDC/
又比如在自动驾驶技术上,针对轨迹预测问题,商汤的研究人员引入Transformer,提出了一种基于堆叠式Transformer的端到端轨迹预测框架mmTransformer。既有效减轻了轨迹预测的复杂性,也确保了多模态的轨迹输出。
论文地址:https://decisionforce.github.io/mmTransformer/
而在激光雷达的3D目标检测上,商汤提出了一种名为ST3D的自训练域适应方法,让检测器在用高质量伪标签训练的同时,避免对大量简单样本过拟合。实验表明,ST3D在KITTI 3D目标检测榜上,甚至超过了全监督方法。
论文地址:https://arxiv.org/abs/2103.05346
事实上,围绕汽车智能化这个时下最热的产业命题,商汤近来可谓落子频繁。
在今年的上海国际车展上,商汤的SenseAuto智能汽车解决方案正式亮相,而结合SenseAuto展现的能力和商汤的CVPR论文,便可看出商汤布局自动驾驶的独特之处——
依靠长期以来在感知技术上的沉淀和积累,一口气打通车内车外,从舱内对驾驶员的感知,到舱外的自动驾驶系统,形成一站式解决方案。
另外,说到技术落地,就要提及商汤一直以来关注的另一个重点——长尾问题。
同样,此番也有论文体现。如LVIS Challenge 2019&2020 冠军团队的长尾目标检测算法Equalization Loss v2,从梯度的角度提出了一种统一的视角来分析长尾问题,并已开源。
论文地址:https://arxiv.org/abs/2012.08548
其实无论是在防火、防水这样的智慧城市应用场景中,还是在复杂道路行驶的自动驾驶场景中,长尾问题一直是困扰着AI模型的一个技术难点。
毕竟再怎么精心调教,看似达到了高精度的模型们,总是会在现实场景中被训练时未曾遇见的情况困住。
商汤也在多年的实践中认识到,一对一精细打磨的模型难以应对长尾问题,反而是简单粗暴地用上大数据 大模型 强算力,“眉毛头发一把抓”,更能解决AI商业化落地中的这个老大难问题。
而这,其实也就是商汤为什么能在CVPR这样的顶会上多点开花的技术秘籍。
商汤秘籍:AI大装置
无论是SenseAuto还是解决长尾问题的“大力出奇迹”,据商汤联合创始人林达华透露,几乎都是在商汤AI大装置的基础上进行的。
什么是AI大装置?
其实就是商汤在过去几年中,投资56亿打造大数据 大模型 超强算力的人工智能基础设施,包括AI算力中心(AIDC)、算法训练平台SenseParrots和数据处理平台,以及面向社区的开源算法模型框架OpenMMLab、面向企业的开放算法模型工厂SenseSpring。
至于AI大装置给商汤带来了什么,林达华也做了进一步的解释:
从技术突破这个角度来说,人工智能大装置的一个重要意义就是,它为人工智能的技术研发提供了关键的算力支撑。 在这个基础设施之上,人工智能大装置还提供了丰富的工具和技术组件,能帮助研究员进行快速的试错,他们能够快速地实验很多新的想法。 这样一来,很多有价值的新技术、创新想法就都出来了。
可以说,商汤多年以来在CVPR等顶会上展现的研发、创新能力,在今天沉淀成为了AI大装置的形态。而反过来,AI大装置也进一步加速了研发人员实现想法创意、凝结技术成果的过程。
林达华谈到,在现在这个阶段,人工智能的一些简单的基础问题都已经解决了,AI的进一步发展,就是要深入到更广泛的行业里面。
但这也就意味着,成千上万的具体问题正在浮出水面,人工智能如果沿着过去那种“具体问题具体攻破”的路径接着走,是很难真正更深化地实现落地的。
这个时候,整个行业需要通用性更强的模型。
而像GPT-3、AlphaFold这样的代表性成果,就指出了一条可行的路径:大参数模型,能够带来完全不一样的革命性的变化。
这也就是商汤要重金押注AI大装置的意义所在。
一方面,对于未来10年的人工智能发展,构建起基础设施。
另一方面,当越来越多的人才投入到AI算法研发领域,AI大装置这样的基础设施,将随着技术的开源开放,逐渐从企业内部平台,演变成面向整个生态、整个社区的具有公共性质的设施。
不仅仅是对商汤而言,对于整个AI产业而言,人才 生态 技术,或许正是推动AI进入工业化发展阶段,真正高效率、低成本赋能百业的关键所在。
现在,商汤CVPR 2021的成绩单,就是对AI大装置路径的一次有力验证。
“大力出奇迹”在未来还能给AI领域带来怎样的惊喜,由此看来值得持续期待。
你觉得呢?
— 完 —