ICCV 2021：单目摄像头实时感知车辆形状，显著提高3D目标检测性能 | 百度出品

新闻 2021-09-03 丽雪

439 0

实时形状感知单目三维对象

鱼羊发自副驾寺

智能车参考报道 | 公众号 AI4Auto

通常，自动驾驶汽车通过单目摄像头看到的世界长这个样子：

马路上的其他车辆、物体，都被统一建模成一个个立方体，具体的结构细节则被忽略。

想要更精准地勾勒出车辆的真实形态，当然也不是不行，但那就需要用上激光雷达、双目相机等更加昂贵的传感器。

不过现在，一项最新研究赋予了单目摄像头新的能力——

是的，仅凭单目相机，就能实时感知物体的3D形状，进而提高3D目标检测性能。

这项研究来自百度，论文已经入选ICCV 2021。

考虑2D/3D形状感知约束的3D检测框架

具体如何实现？

大体上可以分为三步：

首先，引入CAD模型，在CAD模型上预先定义几个不同的3D关键点。
然后利用深度学习网络，来建立3D关键点和它们在图像上的2D投影之间的关联。
最后，利用这样的对应关系为每个目标物体建立2D/3D约束。

整体的网络架构如上图所示，8个分支头分别对应中心点分类、中心点偏移、2D关键点、3D坐标、关键点置信度、物体方向、维度，以及3D检测置信度得分。所有回归信息最后都会被用来恢复物体在摄像机坐标中的3D边界框。

而为了自动生成2D/3D关键点的真实标注，研究人员还提出了一种自动模型拟合方法。也就是根据摄像头观测到的2D图像，自动拟合不同的3D物体模型和物体掩码。

具体而言，该方法是基于不同种类的车辆CAD模型，以及KITTI数据集中的3D物体样本实现的。

研究人员指出，实际上，3D形状标注的过程可以看作一个优化问题，其目的是计算出最佳参数组合，来适应AI通过“视觉观察”得到的结果（如2D物体掩码、3D边界框、3D点云等）。

实验结果

研究人员在KITTI 3D目标检测基准上测试了这一新方法的性能。

KITTI 3D目标检测基准包含7481张训练图像、7518张测试图像，以及对应的点云，总共包括80256个标记对象。

在这项研究中，由于测试集的真实数据不可用，研究人员将训练数据分为训练集（3712个样本）和验证集（3769个样本），用以完善模型。

另外，用以测试的模型是在2块英伟达V100上训练完成的，批量大小设为16。

△红色代表最佳结果，蓝色代表次佳结果

可以看到，在全部6个任务中，采用了48个关键点的AutoShape方法取得了4项第一。而采用16个关键点的AutoShape速度更快，准确性损失也并不大。

此外，从上图中可以看出，模型预测的3D形状与真实物体一致性较高。

即使是画面中位置较远的车辆、被截断/遮挡的物体，其位置也能被准确检测到。

总而言之，相比于其他现有方法，AutoShape更准确，并且推理速度更快，可以达到25FPS的处理速度，也就是说可以实现实时检测的效果。

论文地址：
https://arxiv.org/abs/2108.11127

项目地址：
https://github.com/zongdai/AutoShape

百度 ICCV2021 单目相机

版权声明：丽雪发表于 2021-09-03。
转载请注明：ICCV 2021：单目摄像头实时感知车辆形状，显著提高3D目标检测性能 | 百度出品 | 非常AI

地平线：芯片算力并非越大越好，还得比使用效率

4343

上海车展最受关注20款智能车

4339

无人Robotaxi和交警杠上了！双方僵持不下，乘客急得跳脚

4345

特斯拉4680电池产量提高且成本降低，赛博皮卡、小钢炮都将搭载

4334

马云已回国，去了这所学校，还谈了ChatGPT

4336

国产AI跟ChatGPT热侃：话家常、斗智商、互相夸赞

4336

ICCV 2021：单目摄像头实时感知车辆形状，显著提高3D目标检测性能 | 百度出品

考虑2D/3D形状感知约束的3D检测框架

实验结果

GitHub Copilot拒绝“以色列”和“女人”，遇到这些屏蔽词，它就罢工了

5天吸粉超百万！能写诗编程的ChatGPT，让跨境人玩嗨了

相关文章

站内搜索

相关文章