今年 CVPR 多了一个会，叫做「第一届具身 AI 基础模型部署研讨会」，但面孔

今年 CVPR 多了一个会，叫做「第一届具身 AI 基础模型部署研讨会」，但面孔好多是老面孔，包括 Waymo CEO Dragomir Anguelov 和 Wayve CEO Alex kendall，这都是常客。

车企里主要是两家，特斯拉的 AI 负责人 Ashok Elluswamy 和小鹏的 AI 负责人刘先明——好吧，其实是三家，还有一位是先明在 Cruise 的前同事 Ben Snyder，但如今 Cruise 都没了，请原谅我不觉得通用是物理 AI 领域的主要玩家。

这篇先写一下先明做的分享，标题是「构建自动驾驶的世界模型」。我就不发全文了，只发些重点。

「VLA模型从人类行为中学习。给定视频流和指令，它输出动作序列或直接控制信号。VLA 的监督信号比较稀疏，但是是高层次的：人类动作隐含地编码了感知、推理、意图、风险评估、社会交互以及物理理解。

世界模型则从世界本身学习。它不仅预测动作，还能预测未来状态、未来观测，或潜在的未来表征。世界模型的监督信号更加稠密：每一帧图像、每一个运动、每一次交互都成为训练信号。

二者构成了训练物理世界基础模型的两个互补目标：VLA从人类如何行动中学习，世界模型从世界如何演化中学习。

世界模型的三大关键要素：

思考（Thinking）：在模型采取行动之前，我们需要理解它在「思考」什么。对于 VLA 系统而言，可解释性对于调试、建立信任和迭代优化至关重要。

可控（Control）：用于自动驾驶的世界模型必须是可控的。当自车转向、加速、制动或变道时，生成的未来场景必须在物理和几何上保持一致。

长时序推演（Rollout）：自动驾驶决策具有序列性，一次动作的影响可能在几秒后才会显现。

更深层次的要点在于规模化。自动驾驶不可能通过人工设计每一个边缘案例来解决。它最终将通过规模化模型、规模化数据，以及能够迫使模型真正理解物理世界的规模化目标来实现。

VLA是一种目标，世界建模是另一种目标。

下一代物理 AI 模型：

下一代自动驾驶系统不仅要学习模仿人类驾驶，还要在行动之前学会预测、仿真和推理世界。」

最后先明的总结是 Driving by understanding. Understanding by predicting. Prediction by scaling. 这三句大家都能看明白，但是我没有想出很好的翻译，大家有没有好的翻译？

铭鸿体育资讯网