【对话小马智行楼天城:驯服脱缰的野马,让 AI 自我进化】很长一段时间,楼天城都在向外界解释一件事:L4 Robotaxi 和 L2 量产智驾不是同一条路。他曾多次说过,模仿学习无法实现 L4。
最近头部车企 L2 智驾和供应商正在转向世界模型,强化学习常常一起出现。对此楼天城表示 No surprise,他说这是小马智行已经做了很多年的事。“想做 L4,大家就都要从 0 开始做,或者说再走一遍我们走过的路。”
楼天城说,小马智行 2020 年就意识到,依赖人类驾驶行为数据的模仿学习很快会遇瓶颈;模型需要一个能持续生成的虚拟场景、评估行为、行为博弈的训练系统,才能突破天花板。小马智行把这套系统称为 “世界模型”。
2024 年推出世界模型 1.0 时,楼天城曾向我们比喻,世界模型是车端模型的工厂。不同公司对 “世界模型” 的定义不完全相同。在楼天城的描述里,它不直接开车,只负责模拟车端模型决策后世界如何变化:周围交通参与者如何反应,风险是否继续演化。
近期,楼天城再次向我们谈到世界模型的最新变化。他说,世界模型 1.0 很多判断仍依赖人:人来诊断问题、判断开得好不好,再决定采什么数据、优化哪些场景。
但人力也可能成为 “瓶颈”。在世界模型 2.0 中,小马智行将更多诊断和反馈工作交给 AI:例如当车端模型在某个场景表现不佳时,世界模型 2.0 会尝试自动识别问题,并要求工程师补采特定场景数据。 对话小马智行楼天城:驯服脱缰的野马,让 AI 自我进化