毫末智行顾维灏诠释“技术相变期”:数据驱动时代是完全不一样的时代
在物理学中,我们都学过“相变”这个概念。举例来说,水加热会从液态变为气,降温至零度以下,就会从水变成冰。
从宏观尺度上,地球也前后经历了多次温暖气候和冰期的交替。现在常常提起的全球变暖,其结果也不仅是线性的温度上升,而有可能在突破一个温度值后,地球气候可能在几十年内发生一场“相变”,变得不适宜人类生存,这正是当前全力遏制全球变暖的根本原因所在。
相变,同样也频繁发生在人类的技术世界。
马特里德利在《创新的起源》一书中指出,创新几乎总是渐进的,而非突然发生的。一项技术创新总是在经过多次创新积累之后就会在某一节点上发生“相变”,比如蒸汽机的改良和白炽灯的普及。
技术相变的逻辑,在今天仍然有效。在人工智能技术引发的新一轮技术革命下,自动驾驶被誉为智能产业中最先摘取的皇冠明珠。但自动驾驶又令人新生矛盾,当众人每次欢欣鼓舞地觉得无人驾驶会很快到来的时候,自动驾驶的现实困境就会当头泼上一盆冷水。
这一轮自动驾驶从萌芽、兴起到点燃整个汽车产业,也就过去仅仅十年时间。外行人很容易将智能汽车类比为智能手机。
十年间,智能手机的发展早已是沧海桑田,甚至都陷入创新瓶颈了,而十年对于自动驾驶汽车来说,才是一个开始,无人驾驶服务还在踟蹰进行,辅助驾驶终于迎来了量产的黎明,准备迈入城市场景落地的良辰。
几经波折背后,其实是自动驾驶技术的几轮逐步演化。今天所面临的的“规模量产”和“城市高阶辅助驾驶”落地的局面,背后其实是自动驾驶技术迎来了新的“相变”时刻。
人工智能技术革命下,自动驾驶的两次“相变”
自动驾驶的技术演进其实也遵循渐进创新的方式。在新一轮人工智能技术应用于自动驾驶技术之前,科研人员和工程师们就已经在探索让车辆自动移动的可能。从最早的为道路预埋线圈轨道的方式,到加入激光雷达、摄像机以及自动控制技术来指挥车辆缓慢行进,奠定了自动驾驶的技术框架:感知、决策和控制,都是自动驾驶初期的一种探索。
而随着以深度学习为代表的神经网络算法的兴起,自动驾驶的实现出现了可能。经过了美国DARPA所举办的无人车大赛的早期探索和第一波人才培养,到2009年,自动驾驶开始进入商业世界,开始了狂飙突进的十年发展。
如何看待这十年的发展?国内的一家自动驾驶独角兽公司毫末智行在其HAOMO AI DAY上,从技术演进的角度提出了自动驾驶的3.0时代概念,也就是为自动驾驶过去狂飙的十年进行了断代。
毫末把这近十年的自动驾驶技术发展分成了三个阶段:最早的硬件驱动方式,可以称为自动驾驶的1.0时代;最近几年的软件驱动方式,即自动驾驶的2.0时代;即将很快发生,并将持续发展的数据驱动方式,即是自动驾驶的3.0时代。
毫末为三个不同时期总结了其典型的技术特征,即不同的驱动力和技术工具,以及所实现的不同的技术高度上也。
在技术特征上,可以包括四个维度:产品和技术的测试里程,感知技术的实现方法,认知技术的实现方法,技术模式的迭代方式。
在硬件驱动时代,自动驾驶车辆的典型特征就是车上挂满了各种大大小小硬件,简直武装到了牙齿。感知能力,主要依靠昂贵的激光雷达,谁的线束多,谁的数量多,谁的能力就强;在认知上,也基本使用人工规则的方式来实现。由于测试车辆整体成本极高,车辆数量有限,同时技术效果一般,由此导致自动驾驶里程规模比较少,在100万公里左右。
在软件驱动时代,这个时候开始出现更大算力的中央计算芯片,同时车上车规级传感器的数量在快速增加,AI算法开始在车上的广泛应用。在感知方向,各个传感器各自为战,用一些小模型和少量数据做训练,得到单个传感器的识别结果,然后进行感知结果级的融合;在认知方向,依然是人工规则为主;由于整体成本的下降和效果的提升,自动驾驶里程也快速在增加,达到上千万公里。
毫末智行CEO顾维灏表示:“数据驱动的3.0时代,是完全不一样的时代,是数据自己训练自己的时代,我们所做的一切的,都是为了能够做出数据通道和计算中心,以便可以更高效的获取数据,并把数据转化为知识。”
在感知方向,可依靠多个传感器、不同模态传感器的原始数据联合输出感知结果;在认知方向,通过大量人驾数据抽取可解释的场景化驾驶常识,在配以AI的实时计算,可以更加拟人化的融入社会交通流中;训练的方式,也发生了很多变化,主要是从小模型少数据,转成刚才提及的大模型和真正的大数据,是那种1亿公里以上的辅助驾驶里程所产出的数据。
以上可以看到,在引入AI技术之后,自动驾驶技术随着感知、认知技术模式的实现方式的不同,迎来了两次“相变”,而我们所要做的就是搞懂这两次“相变”的核心逻辑。
“特毫华”冲刺自动驾驶3.0的路向,走向合流?
当前,自动驾驶技术正在从2.0迈向3.0时代,而其中以中美两国自动驾驶公司和车企为主要推动力量,国外以特斯拉为代表,国内以造车新势力,华为、毫末等自动驾驶技术提供商为代表,在全力冲刺城市级辅助驾驶的量产落地。
去年底,特斯拉FSD的V10测试版已经向全美推送升级,可实现基于导航的城市级辅助驾驶。而正在更新路上(已多次延迟)的FSD Beta V11,可实现单一软件堆栈进行高速公路和城市内驾驶的第一个版本。尽管一再跳票,特斯拉FSD正在展示出基于车端感知和导航地图即可实现城市级辅助驾驶的能力。
毫末智行在去年4月发布国内首个可大规模量产的重感知路线的城市NOH辅助驾驶系统,并计划在2023年实现打造城市NOH车辆的规模落地,并在2024年快速覆盖中国100个以上的城市。其中,毫末所提出的“重感知、轻地图”路线很快成为国内几乎所有自动驾驶公司的选择。
去年,搭载华为和小鹏城市辅助驾驶功能的车辆开始上市,不过受限于“高精地图”的范围限制,这些车辆只能在广州、上海等地的部分区域开启城市辅助驾驶。此后,我们可以看到华为余承东公开表示,自动驾驶应摆脱对高精地图的依赖。而在小鹏今年开年的内部信表示,要在2023年完全摒弃高精地图落地城市辅助驾驶。
热闹归热闹,那么推动量产自动驾驶技术从ADAS向高阶辅助驾驶(城市级点对点导航辅助驾驶)演讲的技术逻辑,其实正在自动驾驶3.0时代的要求。那就是以数据驱动的方式,来指导自动驾驶感知、认知算法的迭代,以及数据标注、仿真训练等方式来提升自动驾驶系统克服极端场景的能力。
具体来说,自动驾驶技术从2.0向3.0时代演进,其实根本上体现为这样两个方面。
第一是以Transformer为典型的大模型引入到自动驾驶算法的训练中。它一方面带来了对于训练数据的的规模需求和超大算力的使用需求,一方面它又带来自动驾驶算法的加速优化。
第二就是,自动驾驶训练数据结构的优化带来的感知升维,以及大规模人驾数据的决策训练以及交互搜索等算法带来的自决策,为替代原来由规划决策手工规则的认知思路提供了解决办法。
例如,毫末智行在2023年1月的一期AIDAY上,就一口气发布了五个大模型。其中,视觉自监督大模型,可以完成对BEV感知数据升级而成的4D clip数据的自动标注;多模态互监督大模型,可以完成通用障碍物的识别;3D重建大模型帮助毫末做数据生成,用更低成本解决数据分布问题,提升感知效果;动态环境大模型,可以精准预测道路的拓扑关系,让车辆始终行驶在正确的车道中;人驾自监督认知大模型让毫末的驾驶策略更加拟人化,安全及顺畅。
MANA五大模型助力毫末车端感知架构跨代升级:MANA最新的车端感知架构,从过去分散的多个下游任务都集成到一起,形成一个更加端到端架构,包括红绿灯、局部路网、预测等任务,实现了跨代升级。
整体来说,毫末在为自动驾驶3.0时代所作的技术准备,实际上已经成为全行业的一种共识。无论是特斯拉,还是新势力以及强势涌入赛道的华为、大疆等新玩家,都开始尝试按照数据驱动的方式来搭载感知、认知的模型,以及数据组织管理的方式。自动驾驶技术路线正在走向合流。
对于数据驱动来说,可称为3.0时代第三个特点的就是对于自动驾驶智算中心的重视。小鹏、毫末、吉利等主机车企都在纷纷搭载属于自己的智算中心。近期,《人民日报》在科技版《智能算力,数字经济新引擎》中这样评价毫末智行智算中心:有效降低了自动驾驶模型训练成本,大幅提升了计算效率,车端感知架构实现升级。智算中心能够带动人工智能及相关产业倍速增长,成为经济增长的新动力。
结语:做穿越“相变”的新物种
大家知道,科技的演化正在呈现一种加速度。这使得所有科技领域的参与者都容易变得焦虑和痛苦,生怕自己反应过慢,无法抓住时代赏赐的机遇。就如上一个还未结束的移动智能时代,曾经的巨头因为判断失误倒闭了,曾经的小公司因为爆款产品变成了巨头。无数人的光荣与梦想寄托在一个又一个的技术爆发中。
但这只是科技世界的一层表象,内在的逻辑仍然是某一技术遵循自身的演进节奏和逻辑。往往对于人类产生革命性影响的技术树越需要耐心和战略定力。自动驾驶就是这样一种。
回顾过去十年,我们会发现,自动驾驶技术是无法一蹴而就的。而且自动驾驶进程并非如人们预料的一帆风顺,也没有能一下子摘取到无人驾驶这一高悬树顶的果实。现在,自动驾驶正在沿着其本身自然的规律,从辅助驾驶的简单场景向复杂场景,从限制性功能向高阶功能进行演化。
面向正在呼啸而来的自动驾驶3.0时代,也许只有少数保持战略定力和持续投入的自动驾驶公司,才能抓住这次自动驾驶“相变”期,成为适应新时代的新物种。