【对话小马智行楼天城：驯服脱缰的野马，让 AI 自我进化】很长一段时间，楼天城都

【对话小马智行楼天城：驯服脱缰的野马，让 AI 自我进化】很长一段时间，楼天城都在向外界解释一件事：L4 Robotaxi 和 L2 量产智驾不是同一条路。他曾多次说过，模仿学习无法实现 L4。

最近头部车企 L2 智驾和供应商正在转向世界模型，强化学习常常一起出现。对此楼天城表示 No surprise，他说这是小马智行已经做了很多年的事。“想做 L4，大家就都要从 0 开始做，或者说再走一遍我们走过的路。”

楼天城说，小马智行 2020 年就意识到，依赖人类驾驶行为数据的模仿学习很快会遇瓶颈；模型需要一个能持续生成的虚拟场景、评估行为、行为博弈的训练系统，才能突破天花板。小马智行把这套系统称为 “世界模型”。

2024 年推出世界模型 1.0 时，楼天城曾向我们比喻，世界模型是车端模型的工厂。不同公司对 “世界模型” 的定义不完全相同。在楼天城的描述里，它不直接开车，只负责模拟车端模型决策后世界如何变化：周围交通参与者如何反应，风险是否继续演化。

近期，楼天城再次向我们谈到世界模型的最新变化。他说，世界模型 1.0 很多判断仍依赖人：人来诊断问题、判断开得好不好，再决定采什么数据、优化哪些场景。

但人力也可能成为 “瓶颈”。在世界模型 2.0 中，小马智行将更多诊断和反馈工作交给 AI：例如当车端模型在某个场景表现不佳时，世界模型 2.0 会尝试自动识别问题，并要求工程师补采特定场景数据。对话小马智行楼天城：驯服脱缰的野马，让 AI 自我进化

铭鸿体育资讯网