不仅要“看得全、看得清”,还要“识得准、识得快”
览相观于四极兮,周流乎天余乃下。古人期待能从天上观察人间的四面八方,云游四海。而今天,成像技术的发展,实现了感千里之外,知万物之变的梦想。
当下,面向十亿像素级图像视频的大场景、多对象、复杂关系智能重建与理解是新一代人工智能面临的重要机遇与挑战。
长期聚焦十亿像素级图像视频研究的GigaVision,以300万元为奖金池面向全球范围征集原创算法,旨在引领人工智能理论与技术的变革。
不同于其它视觉算法挑战赛,GigaVision挑战赛是全球首个针对大场景、多对象及复杂关系问题的智能算法比赛,是新一代人工智能算法的试金石。
这是什么概念?
在GigaVision挑战赛中,每一张图片、视频的每一帧,都是十亿像素级别!场景可达平方公里级,场景中的人数可达万级,并存在丰富的交互关系。
例如下面这张马拉松比赛的场景中,乍一眼瞥去,只能看到乌泱泱的人群。但在十亿像素的图像之中,它可以放大,放大,再放大,直到看清每一位马拉松选手的细节:
(注:所有数据均在官方批准摄影的公共区域收集,并根据 Creative Commons Attribution-NonCommercial-ShareAlike 4.0 License 发布。)
为什么要构建十亿像素数据集呢?
自从深度学习在2012年取得性能上的突破性进展,计算机视觉技术也随之上升到了一个新台阶。深度学习技术在人脸验证比赛LFW和自然图像分类比赛ImageNet上,超过了人类的识别能力。
在过去十几年的时间里,围绕着计算机视觉展开的任务,例如人脸识别、跟踪、动作识别等,均取得了重大的进展,成为了人工智能领域最“卷”的方向。
但是否还存在一定的机会呢?
有的,计算机视觉的经典任务(包括检测、追踪、三维重建等)以及进阶的智能理解的研究,在十亿像素图像/视频方面,是存在空白的。
究其原因,问题出在了数据集上。正如之前介绍的,数据是推动深度学习算法发展的重要因素。在ImageNet、MS COCO等数据的支撑下,现有人工智能和计算机视觉研究已经能较好地处理百万像素级图像视频的各种任务。
然而,现实中的自然环境具有大场景、多对象、复杂关系的特点,国际上也一直希望智能算法能解决此类真实问题。但受限于成像技术一直无法突破“看得全”和“看得清”之间的矛盾,室外大场景下的十亿像素图像视频此前一直处于空白。缺乏数据的支撑,人工智能和计算机视觉算法难以进一步突破。
清华大学成像与智能技术实验室另辟蹊径,提出了非结构动态光场感知新原理,攻克了宽视场与高分辨矛盾,研制了十亿像素级光场成像系列装备(UnstructuredCam)。
在此基础上,构建了国际首个十亿像素级大场景多对象复杂关系视频数据平台——PANDA,并发表在CVPR 2019上。PANDA数据集具有以下特点:
- 视频中每一帧的像素达到亿量级
- 大场景,可见范围超过1km2
- 多对象,单帧目标框数量达万级
- 复杂关系,丰富的语义标注,细粒度标签数量超过11万
除了PANDA,清华大学成像与智能技术实验室还构建了国际首个十亿像素级室外大场景三维重建数据平台GigaMVS,发表于IEEE TPAMI 2021。GigaMVS数据集具有以下特点:
- 兼具大范围全局三维场景和局部三维几何纹理细节
- GigaMVS的ground-truth几何形状,是由激光扫描仪采集;其覆盖的平均面积达到了8667平方米(标准足球场大小为7140平方米),最大面积可达32007平方米
- GigaMVS与此前所有benchmark相比,分辨率提高了10倍
(GigaMVS实现了圆明园遗址西洋楼场景的大规模三维重建,场景占地约7200平方米,其中“大水法”等局部对象的几何纹理细节清晰。)
GigaVision 挑战赛比什么呢?
基于上述数据集,GigaVision和CVPR、ICCV、ECCV、ACM MM等国际顶会联合举办了多届Workshops和Challenges,是深受国际认可的前沿课题。在往届赛事中,斯坦福、谷歌等国际一流人工智能的高校和企业均有参与。
今年,GigaVision主办方延续经典CV任务的同时,增加了新赛道,一共设置了六大赛道供全球算法“玩家”来参与。它们分别是:
主办方关注算法的原创性,针对第一赛季设立了300万人民币的奖金池,奖金池还会持续增加。主办方会长期维护赛道榜单,更具挑战的新赛道也会陆续上线。
大赛主办单位:启元实验室、清华大学、中国人工智能学会。
今年的赛道已全部开启,欢迎大家登录官网,踊跃报名!
参赛链接:gigavision.cn
联系邮箱:challenge@gigavision.cn