现阶段,智驾行业竞争正在如火如荼地进行中,最被看好的特斯拉凭借自己造车,自研智驾系统和芯片的方式高速领跑,而随着英伟达、地平线、华为等公司先后切入智驾赛道,也使战局更复杂。
作为国内智驾行业的“隐形冠军”,截至2024年上半年,国内道路上已有接近10万辆车搭载使用了Momenta的自动驾驶软件,它们来自上汽、比亚迪、广汽等诸多厂商。接下来,还会有包括通用、丰田、奔驰在内的10多个品牌的数十款车型搭载Momenta的软件,这也让Momenta已成为目前拿到最多高阶智能驾驶订单的中国公司。
“主机厂现在最关注的就是我们和华为的智驾方案,都会拿两者去作对标。但所谓超出华为智驾0.5到1个段位的话不是我们说的。”9月29日,在全球智能汽车产业大会(GIV2024)上,Momenta CEO曹旭东在接受《证券日报》记者采访时表示,主机厂会把自动驾驶分成几十上百个场景,比如路口会划分成左转、直行、右转、占道车的绕行等,每个场景都会有对应的KPI即成功率的概念,车厂会根据成功率来做出选择。
当记者问及对标中Momenta的突出优势时,曹旭东将其概括为丝滑绕行、路口灵活交互和驾驶预判三大类。“在城市NOA场景中,占道车辆、逆行的两轮车非常多,如果车辆不能丝滑绕行,通行效率会非常低。打个比喻,我们的丝滑绕行基本超过了很多中等水平司机,达到了超过老司机的水平。”曹旭东表示。
关于路口交互和驾驶预判方面,曹旭东表示,在路口面临前行过程中,人车流密度特别高时,Momenta会以1公里每小时的速度蠕行,去判断时机与行人博弈。同时,在城市中有很多“鬼探头”的场景里,Momenta能够动用所有预判信息,通过极短的延迟做出防御性驾驶的行为。
那么,Momenta是凭何实现上述效果呢?答案要从大会当天曹旭东发布的首个量产智驾大模型说起。据曹旭东介绍,Momenta在2023年上半年,就已量产了两段式端到端。一年后,又量产了一段式端到端。
事实上,现在的大模型已经发展到第五代,端到端也分野出两个概念,分别是两段式端到端和一段式端到端。何谓两段式端到端?曹旭东告诉记者,在两段式端到端中,感知的端到端一定需要这个物体对于人来说是比较好定义的,这样的话才能够很好地搜集训练数据,很好地学习和很好地验证。
“但是对于复杂的通用障碍物,比较难在感知的端到端里面做定义的,规控的端到端就无法收到对应的输入,进而忽视掉重要的感知信息,做出一些误判的驾驶行为。”曹旭东解释道,一段式端到端的好处是感知的端到端和规控的端到端联系在一起,哪怕未定义的物体出现,在感知大模型的帮助下,仍然会做出合理避让。
“与分模块化方案相比,一段式端到端的上限更高,因为它取消了很多人为设定的先验。”曹旭东说,当数据少时先验会起到好的作用,但数据量大的时候,先验则会约束整个系统的上限。用端到端就相当于把这些先验给去除掉,这样会进一步提升系统的上限。这也是为什么Momenta智驾现在的水平已经比去年年底超越了几十倍。
谈及如何解决一段式端到端方案前期下限低的问题,曹旭东表示,Momenta的处理方案类似于人类学习的逻辑。人类大脑既有短期记忆,又有长期记忆,当一个新的数据进来,它会先进入短期记忆,等到数据和方法被验证之后才会进入长期记忆去学习。Momenta的端到端模型也受此启发,分为短期记忆和长期记忆。短期记忆的训练周期是以天为级别的。好的数据和好的方法得到验证之后再进入长期记忆的模型学习。
在曹旭东看来,实现规模化的L4,最关键的点是安全。“我们觉得至少要实现10倍于人类的安全性,才有可能实现规模化的L4。要达到10倍于人类的安全性,最关键的就是解决实现规模化L4遇到的各种各样数百万个长尾问题。”
对此,曹旭东给出两点建议。第一,一定要数据驱动,数据驱动是可以自动化地解决绝大部分的问题。第二,需要至少千亿公里的大数据。“家用车乘用车一年的里程大概一万公里,千亿公里需要一千万台车跑一年的时间。这也只是实现规模化L4的必要条件,还不是充分条件,充分条件可能需要更多的数据。”曹旭东表示。