“太偏数学了,投稿时以为会很冷门,根本没想到能获奖”
梦晨 萧箫 发自 凹非寺
非常AI | 公众号 QbitAI
从汽车动力学“转行”智能视觉感知,3年斩获2篇CVPR论文。
其中一篇,还是今年CVPR论文的最佳学生论文奖。
奖项颁了二十多届,今年第一次颁给来自中国高校的学生一作,打败了哈佛大学博士生&谷歌的另一篇论文研究。
这是同济大学在读二年级硕士、阿里达摩院实习生陈涵晟的真实经历。
转方向前,他对汽车动力学同样兴趣十足,曾经加入过赛车队,主导空气动力学开发,最终团队在大学生国际赛事上获了奖;
读研第一年,论文就入选了CVPR,但却因为理论不够充分,转而继续深入研究,才有了今年这篇最佳学生论文奖。
在与陈涵晟同学的交流中,我们了解了更多关于他的故事。
本科第五年才转型自动驾驶
陈涵晟就读的同济汽车学院,本科是五年制。
一入学他就参加了同济翼驰车队。这是一个上百人组成的学生社团,在学校、学院和赞助商支持下,每年都会设计、制造赛车并参加国内和国际比赛。
在车队里陈涵晟负责的是空气动力学开发,主要涉及仿真计算、曲面建模等技术。
他渐渐成为车队的骨干,还助力团队在2018年的日本大学生方程式赛车上拿了最佳空气动力学奖。
其实汽车和计算机都是陈涵晟从小开始就有的爱好,他表示自己也搞不清楚更喜欢哪个,另外数学也是他一直感兴趣的学科。
高考后他也曾考虑过计算机专业,不过最终还是选择了汽车。
到毕业那年,他看到一个把这些爱好更紧密结合起来的新道路。
智能汽车、自动驾驶的大潮来了。
当时,同济刚成立不久的智能汽车研究所也在招生,他的毕业设计就选择了自动驾驶方向。
有机遇,就想尝试一下新东西。
陈涵晟加入了熊璐教授的课题组开始学习新知识,熊璐老师也将成为他后来在研究生阶段的导师。
熊璐现任同济大学新能源汽车工程中心副主任,长期从事汽车底盘控制、分布式驱动电动汽车动力学控制相关科研工作,
在研究生阶段陈涵晟还有一位副指导老师,同济大学汽车学院助理教授田炜,他主要研究智能驾驶的环境目标感知技术和轨迹预测技术。
转方向、学习交叉学科压力会很大吗?陈涵晟认为对他来讲并不会很累,反而两个领域的碰撞总能让他产生更多灵感。
毕业那年是这些年来最舒服最轻松的那年,完全地去学习新知识,有很大的收获感。
不满足炼丹要搞懂理论,一连斩获2篇CVPR
到了研一,田炜老师给他布置的课题方向是在传统模型中中加入概率和不确定性。
陈涵晟将之与自己感兴趣的3D物体位姿问题结合起来,发表了他的第一篇CVPR。
虽然中了顶会,不过陈涵晟还是觉得差了些什么。
这篇文章是根据经验设计的,虽然模型效果好但我不明白他为什么效果好,也无法用数学理论去证明这个方法就是最优的。
这次获奖的第二篇论文与之前相比最大的突破点,陈涵晟认为在于“从理论出发去解决问题”。
我们把各种方法都统一起来,套在一个大框架里面。
然后又从这个框架里找到了一个更通用、效果更好的方法,第二篇论文就诞生了。
陈涵晟的这两篇CVPR论文,具体来说研究的都是通过单张2D图像估计3D物体位姿的问题。
对于人类来说,通过一张2D照片,判断里面各物体大致的位置很简单。
但对于计算机来说,这是个颇为复杂的问题,像下面这些车在它看来,并没有远/近的距离感:
因此,如何让计算机学会通过2D照片估计3D物体的位置和朝向,就变成了一个需要解决的问题,像自动驾驶(用摄像头估计车辆位置)、AR(判断虚拟物体距离)等领域都要用到:
然而,现有的两类解决方法几何推理和深度学习,都有一定缺陷。
几何推理,最常见的就是PnP(Perspective-n-Point)算法,具体指通过已知的n个3D空间点(c1、c2、c3、c4)的坐标、对应2D平面上点的坐标,结合相机内参来反推相机的位姿。
本质上来说,就是找到3D空间点的坐标系w以及相机坐标系c的对应关系,来推导出相机和这些3D点的空间距离:
△PnP图示,来源OpenCV文档
这个方法非常简洁,原理也好理解,然而必须得有一大堆参数(3D、2D坐标和对应的相机内参)才能计算出结果。现实是往往只能用一张2D照片做估计,没有对应的3D坐标。
深度学习方法倒是不需要这么多参数,直接用AI搞预测就行。
但这样问题又来了,不仅模型可解释性差,预测结果不一定准确,而且数据集样本量少的时候,还非常容易过拟合。
他的第一篇论文,便是在PnP算法中引入了不确定性,在此基础上提出MonoRUn检测算法。
相比用自监督方法直接学习位姿,这篇论文先用自监督方法学习2D和3D坐标之间的关系,再用PnP算法求解。
论文估计了坐标预测结果的不确定性,并用不确定性PnP算法,让模型学会关注不确定性较低的前景点(检测对象的点)。
MonoRUn做出来后,效果很好,不需要提前知道物体的几何形状,就能预测3D位姿,直接登上CVPR 2021。
但这却让陈涵晟有点懵:为啥用不确定性PnP算法,效果就这么好?
这一方向上继续深入研究之后,他最终发现了“盲点”:PnP算法本质上在某些点是不可导的。
也就是说,上一篇论文把不确定性引入PnP算法,虽然效果很好,但本质上将PnP视为确定性这一操作并不可导。
这会导致PnP算法求解得到模糊的位姿解,从而导致反向传播(收敛过程)不稳定。
一番思索后,陈涵晟突然意识到,为什么不将这种确定性问题转化成概率密度的问题呢?
也就是说,将PnP的输出视为位姿的概率密度函数,这样问题就从不可导变成了可导,这便是End-to-end Probabilistic Perspective-n-Points(EPro-PnP)算法的由来。
这次的模型做出来后,灵活性和可解释性都得到了很大的提升,收敛也稳定多了,最终在CVPR 2022中获得最佳学生论文奖。
据陈涵晟介绍,第二篇论文是他在阿里达摩院做研究型实习生期间完成的。
达摩院的研究氛围很好,与他同期的一组实习生虽然做的都是不同方向,但经常和带他们的几位老师在一起讨论问题。
论文里面虽然没有挂上那么多人的名字,但很多细节都是在平时的讨论中获得灵感,再完善出来。
相比之下,今年疫情封校期间他一直待在宿舍,“缺少了和人的交流,研究灵感反而少了很多”。
陈涵晟还提到了实习期间“算力充足”的快乐——
搞这项研究期间,达摩院的导师王丕超还特意帮他多申请了一台服务器,才能顺利完成整个模型的研究训练。
还以为比较冷门,没想到能够获奖
这次成果能获奖,陈涵晟和导师、达摩院的几位合作者都没有预料到。
我原来以为这篇论文可能比较冷门,因为太偏数学,没想到能够获奖。
整个作者团队没有人在美国新奥尔良的CVPR现场,领奖还是远程接入的。
不过从这届CVPR整体风格来看,确实更倾向于基础理论而不是更热门的模型结构调整方向。
像最佳论文奖,也是颁给了一项用神经网络解决传统几何问题的研究。
就陈涵晟观察,CVPR的评委可能更多的是在鼓励理论上具有突破传统范式的贡献。
对于获奖时有什么想法,陈涵晟的回答很实在:
最大的感触就是以后的路更好走了。
如今面临研究生毕业,陈涵晟对未来的打算很明确,想继续做科研。
不过以后不一定是做自动驾驶领域的科研,可能还会尝试新东西,主要还是按自己的兴趣去做。
在交流中,我们观察到兴趣是陈涵晟做事最大的驱动力,一旦开始做事他就会非常投入。
有达摩院的同事爆料他推导公式时不时会拍自己大腿,甚至吓到周围的人。
陈涵晟觉得可能是因为自己太专注了,成功或者出错都会情不自禁表达一下激动或沮丧的心情。
除了专注,他还擅长把不同兴趣结合起来。
他在本科时参加了合唱团,那时他也会利用编程创作音乐作品、或者用计算机模拟管风琴。
最后,我们问了问他对于做科研有什么心得。
陈涵晟认为独立思考是最值得一说的。
很多时候他面对一个课题不是先把领域内的文章通通看一遍,而是自己先尝试,有了比较完善的想法之后再去读论文。
如果有人做的话,至少说明我的思路是正确的。如果没有人做的话,有可能我发现了一个新的东西。
论文链接:
https://arxiv.org/abs/2203.13254
参考链接:
[1]https://cvpr2022.thecvf.com/cvpr-2022-paper-awards
[2]https://wap.peopleapp.com/article/6767948/6638309
[3]https://arxiv.org/abs/2103.12605
[4]https://weibo.com/2027586097/Gyx9dp8lN