66篇论文入选CVPR 2021,商汤的秘籍竟是“大力出奇迹”

2021-07-19 15:25:57 浏览数 (1)

鱼羊 发自 凹非寺 量子位 报道 | 公众号 QbitAI

CVer翘首以盼的CVPR 2021,它来了它来了。

本届CVPR论文录用率,较去年略有回升,但竞争依然激烈——在7039篇有效投稿中,最终有1661篇中选,录用率为23.6%。

继去年华人一作包揽最佳论文、最佳学生论文、经典论文奖之后,今年的CVPR又延续了“华人主场”的气质:

单看最佳论文奖候选名单,32篇中就有18篇有华人学者参与,足可谓占据半壁江山。

又比如年年霸榜的商汤科技,此番共有66篇论文入选,并且还是学术、产业两开花的那种,其中还有一篇入选最佳论文候选名单。

入选最佳论文候选名单

照例,我们先来探究一下这份成绩单的“质量”。

就先从入选最佳论文候选名单的NeuralRecon: Real-Time Coherent 3D Reconstruction From Monocular看起。

这是一篇三维重建方向的研究。NeuralRecon是首个基于神经网络的单目实时场景三维重建系统。

具体的效果,就像这样:

实时重建

不同于以往基于深度图估计与融合的方法,NeuralRecon直接基于图像特征,预测用TSDF(截断符号距离函数)表示的局部三维表面,并创新地提出了一个联合TSDF重建与融合框架。

这样做的好处是,可以让网络学习到三维表面在局部和全局上的平滑先验,使得最终的重建结果准确且具有很好的一致性。

实际上,三维重建是实现沉浸式AR效果的基础。而NeuralRecon这种基于单个摄像头拍摄的视频,实时进行三维重建的方法,就为AR在普通智能手机上的落地应用打下了理论基础。

要知道,为了在手机、平板等设备上实现更好的AR效果,苹果甚至用上了激光雷达这样的传感器。现在有了NeuralRecon,即使是普通的智能手机,也能实现更强大的AR功能。

比如基于NeuralRecon重建的场景,实现这样的效果:

论文链接:https://arxiv.org/abs/2104.00681

以上,还只是商汤这回在CVPR上展示的学术积累的一个方面。

比如,在与自动驾驶息息相关的点云方面,商汤同样有一篇论文中选Oral。

Variational Relational Point Completion Network这篇论文中,研究人员提出了一个两阶段网络,来从残缺点云中学习关系型结构属性,从而恢复可信且高质量的完整点云形状。此外,论文还生成了一个丰富的残缺点云数据集,可作为点云补全测试基准。

论文链接:https://arxiv.org/abs/2104.10154

而在图像视频编码方面,Checkerboard Context Model for Efficient Learned Image Compression这篇论文创新地提出了棋盘格上下文建模方式,实现了在常用模型上超过40倍的加速。

论文链接:https://arxiv.org/abs/2103.15306

除此之外,在同期举办的挑战赛中,商汤-南洋理工联合实验室(S-Lab)团队一举斩获CVPR 2021 NTIRE视频理解挑战赛三项冠军,包括视频超分辨率、重度压缩视频质量增强(固定量化参数,保真度)和重度压缩视频质量增强(固定比特率,保真度)赛道。商汤研究院团队摘得CVPR 2021 ActivityNet时序动作检测任务弱监督学习赛道冠军。

一窥商汤应用布局

话至此处,可见在这届CVPR上,商汤这个“算法工厂”仍然延续了全能的风格。

并且在此次入选CVPR的论文中,不仅能看到商汤在各个学术领域的投入,还能一窥从自动驾驶到智慧城市,乃至在手机等诸多应用领域,商汤的技术布局。

比如提升屏下相机的成像质量:

画质恢复前后

论文地址:https://jnjaby.github.io/projects/UDC/

又比如在自动驾驶技术上,针对轨迹预测问题,商汤的研究人员引入Transformer,提出了一种基于堆叠式Transformer的端到端轨迹预测框架mmTransformer。既有效减轻了轨迹预测的复杂性,也确保了多模态的轨迹输出。

论文地址:https://decisionforce.github.io/mmTransformer/

而在激光雷达的3D目标检测上,商汤提出了一种名为ST3D的自训练域适应方法,让检测器在用高质量伪标签训练的同时,避免对大量简单样本过拟合。实验表明,ST3D在KITTI 3D目标检测榜上,甚至超过了全监督方法。

论文地址:https://arxiv.org/abs/2103.05346

事实上,围绕汽车智能化这个时下最热的产业命题,商汤近来可谓落子频繁。

在今年的上海国际车展上,商汤的SenseAuto智能汽车解决方案正式亮相,而结合SenseAuto展现的能力和商汤的CVPR论文,便可看出商汤布局自动驾驶的独特之处——

依靠长期以来在感知技术上的沉淀和积累,一口气打通车内车外,从舱内对驾驶员的感知,到舱外的自动驾驶系统,形成一站式解决方案。

另外,说到技术落地,就要提及商汤一直以来关注的另一个重点——长尾问题

同样,此番也有论文体现。如LVIS Challenge 2019&2020 冠军团队的长尾目标检测算法Equalization Loss v2,从梯度的角度提出了一种统一的视角来分析长尾问题,并已开源。

论文地址:https://arxiv.org/abs/2012.08548

其实无论是在防火、防水这样的智慧城市应用场景中,还是在复杂道路行驶的自动驾驶场景中,长尾问题一直是困扰着AI模型的一个技术难点。

毕竟再怎么精心调教,看似达到了高精度的模型们,总是会在现实场景中被训练时未曾遇见的情况困住。

商汤也在多年的实践中认识到,一对一精细打磨的模型难以应对长尾问题,反而是简单粗暴地用上大数据 大模型 强算力,“眉毛头发一把抓”,更能解决AI商业化落地中的这个老大难问题。

而这,其实也就是商汤为什么能在CVPR这样的顶会上多点开花的技术秘籍

商汤秘籍:AI大装置

无论是SenseAuto还是解决长尾问题的“大力出奇迹”,据商汤联合创始人林达华透露,几乎都是在商汤AI大装置的基础上进行的。

什么是AI大装置?

其实就是商汤在过去几年中,投资56亿打造大数据 大模型 超强算力的人工智能基础设施,包括AI算力中心(AIDC)、算法训练平台SenseParrots和数据处理平台,以及面向社区的开源算法模型框架OpenMMLab、面向企业的开放算法模型工厂SenseSpring。

至于AI大装置给商汤带来了什么,林达华也做了进一步的解释:

从技术突破这个角度来说,人工智能大装置的一个重要意义就是,它为人工智能的技术研发提供了关键的算力支撑。 在这个基础设施之上,人工智能大装置还提供了丰富的工具和技术组件,能帮助研究员进行快速的试错,他们能够快速地实验很多新的想法。 这样一来,很多有价值的新技术、创新想法就都出来了。

可以说,商汤多年以来在CVPR等顶会上展现的研发、创新能力,在今天沉淀成为了AI大装置的形态。而反过来,AI大装置也进一步加速了研发人员实现想法创意、凝结技术成果的过程。

林达华谈到,在现在这个阶段,人工智能的一些简单的基础问题都已经解决了,AI的进一步发展,就是要深入到更广泛的行业里面。

但这也就意味着,成千上万的具体问题正在浮出水面,人工智能如果沿着过去那种“具体问题具体攻破”的路径接着走,是很难真正更深化地实现落地的。

这个时候,整个行业需要通用性更强的模型。

而像GPT-3、AlphaFold这样的代表性成果,就指出了一条可行的路径:大参数模型,能够带来完全不一样的革命性的变化。

这也就是商汤要重金押注AI大装置的意义所在。

一方面,对于未来10年的人工智能发展,构建起基础设施

另一方面,当越来越多的人才投入到AI算法研发领域,AI大装置这样的基础设施,将随着技术的开源开放,逐渐从企业内部平台,演变成面向整个生态、整个社区的具有公共性质的设施。

不仅仅是对商汤而言,对于整个AI产业而言,人才 生态 技术,或许正是推动AI进入工业化发展阶段,真正高效率、低成本赋能百业的关键所在。

现在,商汤CVPR 2021的成绩单,就是对AI大装置路径的一次有力验证。

“大力出奇迹”在未来还能给AI领域带来怎样的惊喜,由此看来值得持续期待。

你觉得呢?

0 人点赞