首页资讯

理想VLA的五年征途:从"猴子开车"到"私人司机"的AI进化史

时间:2025-08-13 19:01 作者:孤小夜

理想VLA的五年征途:从"猴子开车"到"私人司机"的AI进化史

当理想汽车纯电SUV i8亮相时,外界的目光大多还是聚焦在它的造型、内饰乃至是价格上——一如往常。但少有人意识到,在这辆车的方向盘背后,搭载着一套足以改写理想辅助驾驶技术版图的核心系统:VLA司机大模型。它并非一次简单的功能升级,而是理想汽车在过去五年里跨越两个技术时代——从人工规则时代,到人工智能时代——所积累的全部心血的结晶。

这种技术变革往往比外观设计更隐形,却也更惊险。五年前,理想辅助驾驶团队还在为一个个Corner Case头疼——在雨夜、在桥洞、在施工路段,算法像“昆虫”一样,依赖既定规则和地图。要让一台车学会“像人一样思考”,这条路并不比造出一辆全新电动车容易多少。

更具戏剧性的是,理想每次都没有选择更稳妥的路线。行业内,很多厂商仍在用“规则+地图”的传统架构兢兢业业完善功能,而理想却在内部掀起了一场自我革命:彻底告别地图依赖,转向端到端大模型,甚至押注比端到端更激进的VLA司机大模型。其间的风险和质疑可想而知——从团队内部的工程挑战,到外部对“舒适度、安全性”的质疑,几乎每一个版本迭代都像一次“无人区探险”。



也正因为有这样的背景,理想i8搭载的VLA辅助驾驶系统并不仅仅是一套功能的升级,而是一段技术路线变革的结果。为了理解VLA的意义,就必须回望理想这五年在辅助驾驶技术架构上的转变与抉择:

为什么要一再推翻已有成果,每一次切换解决了什么难题,它又把整个行业推向了怎样的未来?

工程师的驾驶手册:用规则圈养的智能机器

要理解这场技术革命的起点,就必须回到2021年。那时的辅助驾驶,本质上是工程师为汽车编写的一本详尽"驾驶手册"。每一种路况、每一个交通场景,都需要人为设定应对规则:前车刹车时减速多少?变道时保持多大安全距离?红绿灯倒计时如何响应?

理想汽车的工程师们就像一群严谨的教官,试图为一台机器制定出涵盖所有可能情况的行驶规范。他们选择了轻图、无图的技术路线,甚至在2022年就做出了一个在当时看来相当激进的决定:用视觉感知取代角毫米波雷达。

这个决定现在看来颇具前瞻性,但在当时却充满争议。毕竟,大多数车企还在用各种雷达为系统提供"安全感",理想却选择了以视觉为主的路线。

然而,规则时代的美好愿景很快就撞上了现实的墙壁。问题出现在人类认知的局限性上:没有人能够预见所有可能的驾驶场景,更无法为每一种变化制定完美的应对策略。



最典型的困境被理想汽车自动驾驶研发高级副总裁郎咸朋博士形象地概括为"按下葫芦起来瓢"——当工程师解决了一个场景的问题时,往往会在另一个场景中产生新的麻烦。就像给一个机器人设定"遇到障碍物就停车"的规则,看似安全,但如果每遇到路边停车就刹停,在拥堵路段就变成了灾难。

更深层的问题在于,决定系统性能的核心因素是"人"——工程师的经验、编程水平和算法能力。即便是最优秀的工程师,面对无穷无尽的长尾场景也会感到力不从心。一些复杂的交通情况,根本无法用简单的规则来描述和解决。

经过三年的拼搏,理想汽车的全场景MPI(平均接管里程)达到了约12公里的水平。

这在规则时代已经是相当不错的成绩,但团队内部很清楚,这条技术路线正在接近天花板。要想实现真正的突破,必须寻找新的出路。

端到端的觉醒:从规则到模仿的跃迁

2024年中期,理想汽车做出了一个在当时看来颇为冒险的决定:彻底告别规则时代,拥抱端到端大模型。这个决策的背后,是对技术本质的深刻反思。

如果说规则时代是"告诉车辆怎么做",那么端到端就是"让车辆学会怎么做"。技术逻辑发生了根本性转变:不再是工程师预设各种应对方案,而是让AI通过学习大量人类驾驶数据,模仿人类开车的技巧。这就像从"填鸭式教育"转向了"启发式学习"。

端到端技术带来的效果是立竿见影的。2024年7月,第一个端到端版本的MPI就达到了十几公里,一举超越了规则时代三年的积累。这个结果让团队既兴奋又意外——原来AI的学习能力如此强大。

更令人振奋的是数据增长带来的性能飞跃。随着训练数据从100万clips增加到200万、再到1000万clips,MPI呈现出指数级增长。到2025年初,当数据量达到1000万clips时,MPI突破了100公里大关。从12公里到120公里,实现了10倍增长,仅仅用了7个月时间。

这种提升速度在规则时代是完全无法想象的。就像一个学生从不及格突然跃升到优秀,端到端的表现让整个团队看到了AI时代的无限可能。



但就在团队为这个成绩感到欣喜时,一个新的问题悄然浮现。

从2025年3月到7月底的数据来看,尽管团队投入了5个月时间进行优化,模型性能只提升了两倍左右。增长速度明显放缓了。

原因并不复杂——当数据量超过1000万clips后,单纯增加数据量已经无法带来显著提升。就像学生考试,从不及格到及格很容易,但从80分提升到90分就需要更多技巧和努力。有价值的驾驶数据变得越来越稀缺。

更严重的是,团队发现无论如何调整数据配比,端到端系统总是会出现一些令人困惑的问题:

比如出现了一些违反常理的行为——车辆可能在需要左转的车道上临时变道避让,但随后发现无法顺利插回原车道,陷入了自己给自己制造的困境。

它的决策不够聪明——面对前方大货车阻挡上匝道的情况,车辆会选择先切换到旁边车道,但这样做反而给后续并线制造了更多麻烦,而不是简单跟随前车通过。

这导致了驾乘人员的安全感出现不足,影响体验。在桥洞等视线受阻的区域,人类司机会凭经验进行防御性减速,但端到端系统只有"看到"潜在危险才开始反应。

郎咸朋用了一个极其生动的比喻来总结端到端时代的根本困境:"现在端到端的这套模仿学习并不具备深度的逻辑思考能力,就像猴子开车一样。喂猴子一些香蕉,它可能会按照你的意图做一些行为,但并不知道自己为什么要做这些行为,一敲锣它就过来,一打鼓它就跳舞,但不知道为什么要跳舞。"

这个比喻道出了端到端技术的本质困境:它顶多算是一个高级的"应激反应系统",给定输入就产生输出,但背后缺乏真正的逻辑推理能力。

端到端+VLM:给"猴子"配上智囊团

认识到端到端缺乏深度思考能力后,理想汽车尝试了一个看似合理的解决方案:端到端+VLM(视觉语言大模型)。这就像给一个反应很快但不善思考的司机配了一个智囊团——当遇到需要深度决策的复杂场景时,VLM可以提供更理性的分析和建议。



设想是很美好的。端到端负责基础的感知和反应,VLM负责复杂情况下的决策思考,两者结合应该能够取长补短。

但现实很快就给了团队当头一棒。VLM的推理速度只有2-3Hz,根本无法满足实时驾驶的需求。更致命的是,端到端模型完全"听不懂"VLM在说什么。

郎咸朋的比喻再次一针见血:"就像我们对猴子说人话一样,你跟猴子说别跳了,或者说让它往哪走,它很难理解人在说什么,因为它没有思考能力。"

VLM可能提供了非常合理的决策建议,但端到端模型无法理解这些建议的含义,更无法将其转化为实际的驾驶行为。这种"鸡同鸭讲"的状况让整个方案陷入了死胡同。

团队面临一个根本性问题:要么让VLM变得更快(技术上极其困难),要么让端到端变得更聪明(同样困难)。或者,寻找一个全新的技术路线。

郎咸朋又用了一个非常形象的比喻来描述端到端时代的困境:“猴子开车”。

在实际的测试中,"猴子开车"的问题在实际驾驶中表现为三种典型症状:

违反常理的行为:车辆可能会做出看似合理但实际不当的决策,比如在需要左转的车道上临时变道,但随后又无法顺利返回。

开车不够聪明:面对复杂情况时,车辆无法做出最优决策,比如在匝道前遇到大货车时,不会选择最合理的跟车策略。

安全感不足:缺乏人类司机天然具备的防御性驾驶意识,往往要等看到危险才开始反应,而不是提前预判和准备。

"现在端到端的这套模仿学习并不具备深度的逻辑思考能力,就像猴子开车一样。喂猴子一些香蕉,它可能会按照你的意图做一些行为,但并不知道自己为什么要做这些行为。"

一个大胆的VLA设想:让机器会思考

面对端到端+VLM的困境,理想汽车团队开始思考一个根本性问题:既然端到端模型听不懂VLM的"人话",那为什么不让它直接学会"说人话"和"想人事"呢?

这个想法催生了VLA(Vision-Language-Action)司机大模型。VLA不是简单的技术拼接,而是从架构层面的重新设计,让视觉、语言和行动三种能力在同一个模型中有机融合。



分开理解这三个字母并不困难,其中Vision(视觉):通过各种传感器和导航信息,让模型对空间有精准的感知能力,就像给司机配备了最敏锐的眼睛。

Language(语言):将复杂的空间信息进行高度压缩和编码,用语言的形式进行内部表达。就像经验丰富的司机能够用简洁的话语准确描述复杂的交通状况。

Action(行动):基于对场景的理解,生成具体的驾驶行为。这里最大的创新是使用了Diffusion技术,能够生成自然、平滑的行驶轨迹,而不是生硬的轨迹点连接。

此前我们已经介绍过一次理想VLA技术的能力:比如在通过高速收费站时,可以直接说“走人工”,系统就可以从众多的ETC收费通道中转向人工收费通道。在日常的驾驶环节,也可以通过“前方掉头”和“前进10米”的简单指令,调整行车路线——就像是我们平时和代驾司机直接沟通的水准。

这也意味着VLA在尝试理解物理世界。

VLA最大的突破在于解决了端到端时代的"沟通鸿沟"。由于整个模型都具备语言理解能力,人类可以直接用自然语言与VLA交互,这种交互与VLA内部的决策逻辑是完全一致的。

当用户说"开快点"时,这相当于给VLA的内部决策系统发送了一个prompt指令;而VLA在分析路况、做出决策时,内部也是通过类似的语言编码进行推理的。这种一致性让人机交互变得天然而流畅。

更重要的是,VLA不再依赖于模仿学习,而是转向了强化学习。这意味着系统不仅能够学习人类的驾驶行为,还能够在虚拟环境中自我训练,不断改进和完善。

从技术上看,VLA的技术能力最终转化为四个核心产品特性。第一思维能力:VLA具备了思维链推理能力,可以实时进行逻辑思考,不再是简单的应激反应。其次沟通能力:用户可以直接用语言与VLA交流,"开快点"、"往左转"这样的指令都能被理解和执行。然后记忆能力:VLA能够记住用户的驾驶偏好,比如在某条路上习惯的行驶速度,并在下次经过时主动调整。最后是自主学习能力:通过强化学习,VLA可以不断自我迭代和提升。

也就是说,从这样的一个技术逻辑来看,理想汽车能够率先实现VLA,依托的是强大的技术基础设施。在数据方面,从2020年开始,理想汽车就建立了完整的数据闭环,截至2025年7月已累计收集了12亿公里的有效驾驶数据。

这些数据不是简单的里程堆积,而是经过精心分类和标注的宝贵资源。包括不同天气、不同时间、不同道路类型的数据;各种车道类型如ETC车道、潮汐车道的数据;各种路口类型和交通状况的数据。更重要的是,理想汽车还通过世界模型技术,将真实数据进行重建和生成,创造出更多稀缺场景的合成数据。

理想的技术第一性原理:以解决问题为导向的创新

其实从这里就可以发现。纵观理想汽车五年的技术演进路径,有一个清晰的内在逻辑:每一次技术架构的切换都是为了解决上一代技术无法克服的根本性问题,而非单纯的技术炫耀或竞争考量。

从规则算法转向端到端,是因为人工设计的规则无法覆盖无穷无尽的长尾场景;从端到端转向VLA,是因为模仿学习缺乏深度思考能力;从模仿学习转向强化学习,是因为真实数据分布不均匀,有价值的数据稀缺。

这种"问题导向"的创新思维,让理想汽车始终能够抓住技术发展的核心矛盾,实现真正有意义的技术突破。

例如强化学习也让VLA具备了自我迭代的能力。在仿真环境中,模型可以反复练习同一个困难场景,从最初的撞车到逐渐掌握安全通过的技巧,整个过程就像一个虚拟的驾校教练在24小时不间断地指导练习。

传统的实车测试存在无法复现、测试周期长、成本高昂的问题。理想汽车通过世界模型构建了精确的仿真环境,可以做到场景的完全复现和快速迭代。2023年实车测试每公里成本约18元,而2025年上半年通过仿真测试,成本降到了5毛钱一公里,测试质量还更高。



VLA时代,推理算力变得比训练算力更加重要。理想汽车目前拥有13EFLOPS的算力规模,其中3EFLOPS用于推理,10EFLOPS用于训练。这种配置反映了VLA技术的特点:需要大量的推理算力来运行世界模型,生成各种仿真场景供模型学习。

再好的模型如果不能部署到车辆上也毫无意义。理想汽车在工程化方面展现了强大的能力,成功将4B参数的MoE模型部署到Thor-U芯片上,并实现了FP8和INT8的推理优化。

更令人印象深刻的是,VLA甚至可以部署到上一代的Orin-X芯片上。郎咸朋透露,他自己的2022款理想L9就搭载着VLA系统在日常使用。这种跨平台的部署能力,体现了理想汽车在工程优化方面的深厚功力。

理想汽车为VLA设定了一个雄心勃勃的目标:将MPI提升到1000公里。如果这个目标能够实现,意味着用户可能两三个月才需要接管一次,这将标志着辅助驾驶技术迈入了一个全新的时代。

规则时代耗费三年才达到的10公里MPI,成为了端到端时代的起点;端到端时代达到的200公里MPI,又将成为VLA时代的基础。每一次技术跨越都不是推倒重来,而是站在巨人的肩膀上继续攀登。

郎咸朋认为"上一代技术能力的上限,是下一代技术能力的起点。"这句话深刻地揭示了技术进步的本质。



VLA大模型的出现,似乎也标志着我们正在从"机器辅助人类驾驶"的时代,迈向"机器理解人类需求并主动服务"的新纪元。当汽车不再只是一个交通工具,而是一个能够思考、沟通、记忆和学习的智能伙伴时,出行的意义也将被重新定义。

最近,我们也实地体验了一下理想汽车园区的“VLA巴士”:它的外形其实是一辆MEGA Home,但可以使用手机呼车,在坐上这辆MEGA Home后,前排并没有司机,你完全可以使用语音告诉“理想同学”你想去的地点,它就能安全地把你送到目的地。

技术的进步永无止境,但方向和速度都同样重要。理想汽车用五年时间证明了一个道理:只有真正以解决用户问题为导向,以技术创新为驱动,才能在激烈的市场竞争中走出一条属于自己的道路。

随着技术的不断迭代和完善,我们也有理由相信,真正意义上的"移动空间"和"智能出行"时代即将到来。

Top

1、南昌警方通报:男子持剪刀伤人致1死1伤,已被刑拘,南昌一男子持刀杀害两名内侄

2、蛋白质摄入并非越多越好,蛋白质摄入越多越好吗 减肥

3、回声报:除了格拉利什之外,埃弗顿还想加强三个位置,埃弗顿叫什么

小编推荐

当前文章:http://www.share.tuanjian7.cn/ZQI/detail/osmtsg.html

相关阅读

网友评论

我要评论

发表

取消

孤小夜