都2023年了还有人创业做数据标注?还有VC和大厂看好??

新闻 2023-02-24 思邈
437

成立仅1年,融资千万

邓思邈 发自 副驾寺

智能车参考 | 公众号 AI4Auto

都2023年,还有人创业做数据标注,而且迅速获得了一众客户和投资???

选的还是自动驾驶赛道。

数据标注,AI被深度学习复兴以来新增的产业之一,一度“有多少人工就有多少智能”的调侃,指的就是数据标注在行业中的重要性。

但这都2023年,数据标注还能玩出什么新花样吗?

这家叫恺望的新创业公司,带来了规模化人工+自动化产线的方法,并表示可以提供稳定又低价的服务。

稳定又低价,怎么实现的?

数据标注,本质就是给训练数据集打标签。标签可以添加到任何类型的数据中,包括文本、图像、视频、音频和3D点云。

有了标签后,可以帮助机器学习模型未来遇到从未见过的数据时,也能准确识别数据中的内容。

但并非所有标注过后的数据,都能真正起作用。

其中涉及到不同客户对数据标注颗粒度、维度的要求,于是通常的痛点,会伴随着数据质量不佳、数量规模不足、标注成本高、数据生产流程不规范、甲乙方磨合周期长……

而为了解决上述问题,恺望提供的新思路是:规模化人力+自动化产线——可以实现成本降低超过20%。

一方面,“规模化人力”,主要是找“专业的人做专业的事”,用专门的在校学生,替换之前临时或简单培训就上岗的社会人士。

具体方面,恺望通过与高职院校合作,搭建数据学院,以此培养数据产线上需要的人。

据说可以迅速上岗——前期对学生进行70%的通用培训,然后再培训操作和运营的流程。

目前恺望第一批300名学生,已在山东等地高职院校完成培训,他们希望今年能够培训超过1000位学生。

另一边,“自动化产线”,是指通过工具提效和管理优化,提升整体运作效率。

恺望将整个数据处理流程拆成了4个环节:需求、生产、管理、生态

简单解释就是,当汽车传感器采集到了数据后,就输入到“工厂”里,后续他们的工作首先是解读客户需求规则、拆分数据任务。

然后将这些任务匹配给不同的人去做,例如有人专门负责标红绿灯、车道线,有人则负责标道路交通牌。

在生产管理过程中,可以借助飞书把握不同学生的工作进度;还能利用亚马逊AWS云服务完成数据传输,好处是原来要花上2天才能完成,现在则缩短为1.5小时

所以恺望的不同之处,就在于把自己与不规范的手工作坊区分开来,构建一套现代化工厂的运营模式。

工作人员不能是临时拼凑的,需要提前熟悉规则。工作流程必须是清晰有条理的,尽可能减少不必要的浪费,无论是时间还是成本。

有点像是数据标注行业里的富士康

恺望是谁?

目前行业内的技术方案,大多关注的是“预标注”这个环节的效率。

即数据标注的自动化程度。

△来自浙商证券研报

但恺望认为目前人工智能还不能完全替代人力,自动化数据标注会有一个发展过程,恺望CEO于旭就举例说:

就像是自动驾驶最终会走向L4、L5,但中间会经历L2、L3,但L2、L3的经验,可以使最终形态的自动驾驶更准确更科学的实现,人工智能一定是需要一个基于数据进行积累和建模、最终全面自动化和智能化的过程。这个不会是一蹴而就,而是需要逐步实现。

而且恺望产品项目副总裁张鹏也表示,“目前,数据标注以人工标注为主,机器标注为辅。而从整个自动驾驶行业的普遍水平来看,可以说95%的数据标注还是以人工为主”。

不过他们也给自己定下了目标,希望用3年时间,实现通用项目90%的自动化(即预标注占的百分比)。

恺望于2022年成立,创办1年就获得了不少知名客户,包括长安汽车、字节跳动、元戎启行、辉羲智能、地平线、寒武纪、易控智驾、中科创达、中交兴路、旷视、商汤等等。

创始团队由4人构成,其中创始人兼CEO于旭,硕士毕业于法国昂热大学,毕业后成了Uber中国的第4号员工,从0到1搭建起平台运营体系。其后就职于Momenta,参与构建了自动驾驶全链路数据的运营体系。此外于旭曾在字节跳动负责管理多个大型标注基地、千人规模大型数据外包渠道以及数万人的众包平台。

恺望合伙人团队,还包括奔驰金融运营流程管理专家、Monenta前数据平台技术负责人;同时还拥有覆盖自动驾驶商业、AI产品策略及算法领域的顾问团队。

融资方面,2022年9月,恺望完成了千万级天使轮融资,投资方包括辰韬资本、三一集团和溪山天使汇。目前,恺望已与三一集团在自动驾驶领域开展数据合作。

之所以在这个时间点,瞄准自动驾驶赛道成立数据公司,恺望称,主要是因为看到了庞大的市场需求

摆在眼前的事实是——2022年12月,我国新能源汽车零售渗透率达到29.5%,较2021年12月22.6%的渗透率提升7个百分点。

而且在大多数情况下,谈电动必谈智能,两个属性往往如影随形、相伴而生。

目前乘用车落地的自动驾驶大部分处于L2级水平,随着激光雷达成本的降低、逐渐量产上车,将会加速L3+的落地。

而L3级别以上的自动驾驶系统,对于计算机视觉技术的需求依赖度较高,系统需要对传感器采集的点云图像数据进行实时处理,构建车辆行驶环境,为预测和决策做依据。

恺望认为,在完全自动驾驶真正实现之前,仍需要大规模数据作为支撑,而这至少还需要10-15年以上时间。

而现在,“规模化人力+自动化产线”,是必经路线。

相关文章