在丹佛，CVPR 2026 开幕上。今年新增了一个环节叫"具身智能基座模型部署研

在丹佛，CVPR 2026 开幕上。

今年新增了一个环节叫"具身智能基座模型部署研讨会"，名字很拗口，说白了就是全球智驾技术一把手聚在一起，聊聊怎么让 AI 真的在物理世界里干活。

登台的阵容挺有意思：特斯拉 AI 软件副总裁、Waymo 副总裁，还有小鹏通用智能中心负责人刘先明。

刘先明也是小鹏连续第三年站上 CVPR 演讲台。

这次他讲的内容，是小鹏世界模型的完整技术图谱，同时也回答了一个行业吵了两年的问题：到底该走 VLA 路线，还是世界模型路线？

他的答案很直接：这不是竞争，是互补，是同一个问题的两个侧面。

为什么说这是伪命题？

刘先明把问题拆到了学习信号层面。

VLA 是从人类驾驶行为里学的。你喂给它驾驶视频，告诉它"这种情况人怎么开"，模型慢慢就学会了映射。

人类动作信号信息密度极高，隐性地编码了感知、推理、意图、风险判断、社交互动。

但问题在于，这种信号在时间上是稀疏的，它只能监督"最后这么做了"。

中间每一次物理状态转移，轮胎抓地力怎么变的、行人脚步重心怎么偏的，这些细节全丢了。

世界模型解决的，恰恰是这个短板。

它不是在学"人怎么开"，而是在学"世界怎么运转"。

借鉴 LLM 的"下一个 Token 预测"思路，在海量视频上逐帧密集预测，每一帧画面、每一次运动都是训练信号。

模型最终学到的，是物理世界的因果结构。

两条路学到的东西不一样。

VLA 学的是"人在这种情况倾向于怎么决策"，世界模型学的是"如果我这么做，物理世界接下来会怎么演化"。

合并在一起，才是完整的智能。

支撑这套逻辑的，是三篇已经发或即将发的论文：X-Mind、X-World、X-Foresight。

X-Mind 做主动推理，让模型在决策前生成一个中间推理过程。系统为什么这么开、依据是什么，都要能解释清楚。

解决了端到端智驾"黑盒"的根本问题。

X-World 做可控生成，给定历史画面加未来动作序列，生成符合物理约束的未来视频流。

不只是好看，是必须在动作指令约束下生成，物理上自洽。

已经在闭环仿真测试、在线强化学习等环节落地。

X-Foresight 做长时序预测，是这次发布的重头戏。核心创新是直接嵌入 VLA 架构，模型输出动作的同时，脑海里同步"脑补"出接下来几秒的高清全景画面，预测和控车在同一个 token 空间里联合训练。

21 秒的预测窗口是核心指标。

120km/h 时速下，这意味着超过 700 米的预判距离，而人类司机普遍只能预判 3 到 5 秒。

实测数据：碰撞率相对下降 16.2%，安全指标提升 9.1%。

支撑这个能力的技术细节很有意思。

自动驾驶视频相邻帧高度相似，大模型很容易学会"作弊"，直接把上一帧平移复制过去，损失函数看着低但什么都没学到。

X-Foresight 的解法是把时间切成 1 秒一块，块内密集采样抓瞬时动态，块间稀疏跳转推演长时因果，再通过课程学习策略逐步扩展预测窗口。

说完技术，刘先明在 CVPR 上还放了句挺重的话："只有能做基座模型的公司，才有可能真的做到 L4。"

现在大多数智驾系统 —— 包括最新端到端方案 —— 本质上更接近"条件反射"。

感知到障碍物，绕开；前方减速，刹车。系统做得好，能把这些动作串得流畅，但本质还是在"反应"，不是在"思考"。

条件反射够用吗？

日常场景够。

但 L4 要处理的是长尾、是开放域、是系统必须在没有人类接管的情况下自己兜底所有意外。

那时候"反应"不够用了——你需要一个能"预测意外"的系统。

这就是为什么"理解世界"不是一句空话。

如果系统能在脑海里提前模拟"如果我这么开，三秒后会发生什么"，那它就能主动规避风险，而不是等险情出现再去反应。

两者的差距，在关键时刻可能是生与死的差距。

小鹏这次的技术图谱，本质上是在为这个能力打地基。方向对不对，有判断标准。剩下的是工程能力、供应链、监管这些关卡，一道道过就是了。

最后用刘先明自己在现场说的一句话收尾吧：

"以理解驱动驾驶，以预测深化理解，以规模化赋能预测。"

这句话翻译成人话就是：系统得先知道世界怎么运转，才能准确预判将要发生什么；预判得准不准，决定了决策靠不靠谱；要把预判能力做到可用级别，需要足够大的模型、足够多的数据、足够强的算力。

三件事，缺一不可。

等着看这套东西什么时候真正改变日常用车的体验吧。

铭鸿体育资讯网

在丹佛，CVPR 2026 开幕上。今年新增了一个环节叫"具身智能基座模型部署研

热门分类