铭鸿体育资讯网

今年 CVPR 多了一个会,叫做「第一届具身 AI 基础模型部署研讨会」,但面孔

今年 CVPR 多了一个会,叫做「第一届具身 AI 基础模型部署研讨会」,但面孔好多是老面孔,包括 Waymo CEO Dragomir Anguelov 和 Wayve CEO Alex kendall,这都是常客。

车企里主要是两家,特斯拉的 AI 负责人 Ashok Elluswamy 和小鹏的 AI 负责人刘先明——好吧,其实是三家,还有一位是先明在 Cruise 的前同事 Ben Snyder,但如今 Cruise 都没了,请原谅我不觉得通用是物理 AI 领域的主要玩家。

这篇先写一下先明做的分享,标题是「构建自动驾驶的世界模型」。我就不发全文了,只发些重点。

「VLA模型从人类行为中学习。 给定视频流和指令,它输出动作序列或直接控制信号。VLA 的监督信号比较稀疏,但是是高层次的:人类动作隐含地编码了感知、推理、意图、风险评估、社会交互以及物理理解。

世界模型则从世界本身学习。 它不仅预测动作,还能预测未来状态、未来观测,或潜在的未来表征。世界模型的监督信号更加稠密:每一帧图像、每一个运动、每一次交互都成为训练信号。

二者构成了训练物理世界基础模型的两个互补目标:VLA从人类如何行动中学习,世界模型从世界如何演化中学习。

世界模型的三大关键要素:

思考(Thinking):在模型采取行动之前,我们需要理解它在「思考」什么。对于 VLA 系统而言,可解释性对于调试、建立信任和迭代优化至关重要。

可控(Control):用于自动驾驶的世界模型必须是可控的。当自车转向、加速、制动或变道时,生成的未来场景必须在物理和几何上保持一致。

长时序推演(Rollout):自动驾驶决策具有序列性,一次动作的影响可能在几秒后才会显现。

更深层次的要点在于规模化。自动驾驶不可能通过人工设计每一个边缘案例来解决。它最终将通过规模化模型、规模化数据,以及能够迫使模型真正理解物理世界的规模化目标来实现。

VLA是一种目标,世界建模是另一种目标。

下一代物理 AI 模型:

下一代自动驾驶系统不仅要学习模仿人类驾驶,还要在行动之前学会预测、仿真和推理世界。」

最后先明的总结是 Driving by understanding.
Understanding by predicting.
Prediction by scaling. 这三句大家都能看明白,但是我没有想出很好的翻译,大家有没有好的翻译?