在丹佛,CVPR 2026 开幕上。
今年新增了一个环节叫"具身智能基座模型部署研讨会",名字很拗口,说白了就是全球智驾技术一把手聚在一起,聊聊怎么让 AI 真的在物理世界里干活。
登台的阵容挺有意思:特斯拉 AI 软件副总裁、Waymo 副总裁,还有小鹏通用智能中心负责人刘先明。
刘先明也是小鹏连续第三年站上 CVPR 演讲台。
这次他讲的内容,是小鹏世界模型的完整技术图谱,同时也回答了一个行业吵了两年的问题:到底该走 VLA 路线,还是世界模型路线?
他的答案很直接:这不是竞争,是互补,是同一个问题的两个侧面。
为什么说这是伪命题?
刘先明把问题拆到了学习信号层面。
VLA 是从人类驾驶行为里学的。你喂给它驾驶视频,告诉它"这种情况人怎么开",模型慢慢就学会了映射。
人类动作信号信息密度极高,隐性地编码了感知、推理、意图、风险判断、社交互动。
但问题在于,这种信号在时间上是稀疏的,它只能监督"最后这么做了"。
中间每一次物理状态转移,轮胎抓地力怎么变的、行人脚步重心怎么偏的,这些细节全丢了。
世界模型解决的,恰恰是这个短板。
它不是在学"人怎么开",而是在学"世界怎么运转"。
借鉴 LLM 的"下一个 Token 预测"思路,在海量视频上逐帧密集预测,每一帧画面、每一次运动都是训练信号。
模型最终学到的,是物理世界的因果结构。
两条路学到的东西不一样。
VLA 学的是"人在这种情况倾向于怎么决策",世界模型学的是"如果我这么做,物理世界接下来会怎么演化"。
合并在一起,才是完整的智能。
支撑这套逻辑的,是三篇已经发或即将发的论文:X-Mind、X-World、X-Foresight。
X-Mind 做主动推理,让模型在决策前生成一个中间推理过程。系统为什么这么开、依据是什么,都要能解释清楚。
解决了端到端智驾"黑盒"的根本问题。
X-World 做可控生成,给定历史画面加未来动作序列,生成符合物理约束的未来视频流。
不只是好看,是必须在动作指令约束下生成,物理上自洽。
已经在闭环仿真测试、在线强化学习等环节落地。
X-Foresight 做长时序预测,是这次发布的重头戏。核心创新是直接嵌入 VLA 架构,模型输出动作的同时,脑海里同步"脑补"出接下来几秒的高清全景画面,预测和控车在同一个 token 空间里联合训练。
21 秒的预测窗口是核心指标。
120km/h 时速下,这意味着超过 700 米的预判距离,而人类司机普遍只能预判 3 到 5 秒。
实测数据:碰撞率相对下降 16.2%,安全指标提升 9.1%。
支撑这个能力的技术细节很有意思。
自动驾驶视频相邻帧高度相似,大模型很容易学会"作弊",直接把上一帧平移复制过去,损失函数看着低但什么都没学到。
X-Foresight 的解法是把时间切成 1 秒一块,块内密集采样抓瞬时动态,块间稀疏跳转推演长时因果,再通过课程学习策略逐步扩展预测窗口。
说完技术,刘先明在 CVPR 上还放了句挺重的话:"只有能做基座模型的公司,才有可能真的做到 L4。"
现在大多数智驾系统 —— 包括最新端到端方案 —— 本质上更接近"条件反射"。
感知到障碍物,绕开;前方减速,刹车。系统做得好,能把这些动作串得流畅,但本质还是在"反应",不是在"思考"。
条件反射够用吗?
日常场景够。
但 L4 要处理的是长尾、是开放域、是系统必须在没有人类接管的情况下自己兜底所有意外。
那时候"反应"不够用了——你需要一个能"预测意外"的系统。
这就是为什么"理解世界"不是一句空话。
如果系统能在脑海里提前模拟"如果我这么开,三秒后会发生什么",那它就能主动规避风险,而不是等险情出现再去反应。
两者的差距,在关键时刻可能是生与死的差距。
小鹏这次的技术图谱,本质上是在为这个能力打地基。方向对不对,有判断标准。剩下的是工程能力、供应链、监管这些关卡,一道道过就是了。
最后用刘先明自己在现场说的一句话收尾吧:
"以理解驱动驾驶,以预测深化理解,以规模化赋能预测。"
这句话翻译成人话就是:系统得先知道世界怎么运转,才能准确预判将要发生什么;预判得准不准,决定了决策靠不靠谱;要把预判能力做到可用级别,需要足够大的模型、足够多的数据、足够强的算力。
三件事,缺一不可。
等着看这套东西什么时候真正改变日常用车的体验吧。
