几天前,同济大学公布了一条重磅消息:本校学生陈涵晟获得CVPR2022最佳学生论文奖,这也是CVPR自2001年设立最佳学生论文奖以来,获奖论文的第一作者首次来自中国高校。
华人在CV领域崛起
最近几年CV领域的顶会,华人作者与日俱增。以CVPR 2022为例,投稿数最多的是来自中国大陆的作者,占到了44.59%;美国则以20.65%的比例位列第二,还不到第一名的一半。虽然我们业内人士已经习惯了华人在顶会上的一路飙升,但是看到最佳学生论文这样重磅级的奖项被中国大陆学生斩获,还是非常震撼的!
这篇佳作是干啥的?
我看了下作者的论文题目:EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Points for Monocular Object Pose Estimation。顿时感觉熟悉而陌生,佩服中带着点惊呆,PnP这么传统的算法竟然还有人一直在默默研究和改进,而且做出了突破性的工作,被世界范围内同行认可。于是,饶有兴致的下载了该论文,想看看能不能学到点什么。
这篇获奖论文主要研究的是针对单目图像中的物体6自由度位姿估计问题,提出的EPro-PnP是一种端到端的概率PnP算法,它将传统多视图几何和深度学习网络结合,实现了在单幅RGB图像上进行精确的位姿估计,该方法在姿态估计和三维物体检测公开数据集上取得的极佳效果。可广泛应用于机器人和自动驾驶领域。作者还开源了代码:
https://github.com/tjiiv-cprg/EPro-PnP
该方法是一种通用的端到端2D-3D对应解决方案,这个“通用”非常重要,模型的泛化性有多么重要,懂的人都懂。
关于创新点的启发
在我们SLAM知识星球交流社区,小伙伴们最焦虑的事情之一就是论文创新点。我之前做了一期关于论文创新点的直播 :今晚19点直播 | 做研究如何寻找创新点? 核心观点如下,还举了一个例子带着大家去找创新点,感兴趣的可以去星球看回放视频。
1、阅读大领域所有综述论文:survey/review 关键词 2、根据已有积累和兴趣选择细分方向 3、阅读细分方向最近3-5年的综述论文、中文学位论文、英文顶会论文 4、重视带开源代码的论文、编译运行;特别好的论文尽量复现 5、自己采集数据、硬件移植、测试;如有能力,参考前人经验自己写一个框架 6、在实际工程中发现问题。查文献看看别人是怎么解决的;思考自己如何解决 7、干起来!
看了这篇EPro-PnP的论文,我再增加几个观点:
1、重视计算机视觉领域的基础知识。
据我所知,不少其他专业转行到CV方向的一般都直接去研究深度神经网络了,他们可能对各种经典网络如数家珍,最终变成了调包侠、调参侠。
但是却忽略了CV的基础知识的重要性,比如最基础的直方图均衡化、形态学开闭操作、相机成像模型、对极几何、PnP、ICP等。而恰恰有时候,这些基础知识决定了你的上限。
这里需要说明的是,上图中文字是PS的,更讽刺的是,我们用多视图几何里的单应矩阵可以非常简单的实现上面的P图效果。知道怎么做的可以在留言区评论。
2、传统多视图几何 和 深度神经网络(DNN)的结合。
现在DNN方向的研究逐渐从二维转到三维,如果熟悉三维视觉里非常核心的多视图几何知识,绝对能够让你的研究工作如虎添翼。多视图几何方面经过了很多年的研究,具有确定性的理论基础,它可以描述物理世界的结构、形状、体积、深度、姿态、视差、运动、光流等信息,非常有意思,它在三维视觉里必不可少。如果能够将两者结合起来,是非常有希望做出一些突破性的成果的。
以上是我个人的瞎扯淡