毫有引力｜火爆全球的ChatGPT，毫末早就“安排”上了！

新闻 1970-01-01

434 0

这里是技术栏目的第14期推送。

当 ChatGPT 遇见自动驾驶

毫末率先取到了

RLHF（从人类反馈中强化学习）的真经

在问鼎 AI“大战”的赛道上

毫末当然不甘示弱

具体如何，赶紧看下去！

在1月5日的 HAOMO AI DAY 上，毫末 CEO 顾维灏提到 MANA 五大模型中的人驾自监督认知大模型，“这与 AGI 领域爆火的 ChatGPT 的思路相同，通过人类行为反馈来选出最优答案”，全新引入用户真实的接管数据，帮助模型做出拟人化决策。MANA 超硬核智能实力与 ChatGPT 如何双向奔赴？

顾维灏提到：“实现 GPT3 到 ChatGPT 的龙门一跃最重要的是 ChatGPT 模型使用了‘利用人类反馈强化学习 RLHF’的训练方式，更好的利用了人类知识，让模型自己能够判断其答案的质量，逐步提升自己给出高质量答案的能力。”

那这对自动驾驶有什么启发呢？

毫末认为，ChatGPT 的技术思路和自动驾驶认知决策的思路一致。

毫末在认知驾驶决策算法的进化上分成了3个阶段：

第一个阶段是引入了个别场景的端到端模仿学习，直接拟合人驾行为。

第二个阶段是通过大模型，引入海量正常人驾数据，通过 Prompt 的方式实现认知决策的可控可解释。

第三个阶段就是引入了真实接管数据，在其中尝试使用“人类反馈强化学习（RLHF）”。一般来说，人类司机的每一次接管，都是对自动驾驶策略的一次人为反馈（Human Feedback）；这个接管数据可以被简单当成一个负样本来使用，就是自动驾驶决策被纠正的一次记录。也可以被当作改进认知决策的正样本来学习。

为此，毫末构建了一个“旧策略、接管策略、人工 label 策略”的 pairwise 排序模型。基于这个模型，毫末构建了自动驾驶决策的奖励模型（reward model），从而在各种情况下做出最优的决策。

毫末将这一模型称之为人驾自监督认知大模型。简单来说，就是为了让自动驾驶系统能够学习到老司机的优秀开车方法，让毫末的认知大模型要从人类反馈中学会选择和辨别，并稳定地输出最优解。通过这种方式，毫末在公认的困难场景，例如掉头、环岛等公认的困难场景中，通过率提升30%以上。

小编预测，如果 ChatGPT 再继续搜索和学习下去的话，它就会知道2023年1月5日的第八届HAOMO AI DAY上，毫末不仅发布了人驾自监督认知大模型，还一口气共计发布了五大模型。这五大模型可以帮助毫末实现车端感知架构跨代升级，也就是将过去分散的多个下游任务都集成到一起，形成一个更加端到端架构，包括红绿灯、局部路网、预测等任务，实现了跨代升级。

人工智能的这场变革并不是必然发生

它有赖于一个天才算法结构的横空出世

它有赖于海量数据和算力的成本

下降与容易获得

也依赖于人工智能技术从业者的勇敢尝试

ChatGPT 的出现是如此

自动驾驶的实现也是如此

ChatGPT办公