铭鸿体育资讯网

CQ的智能汽车科普 小鹏这周发了X-Foresight,配合3月的X-World

CQ的智能汽车科普

小鹏这周发了X-Foresight,配合3月的X-World、4月的X-Cache,应该把VLA方面的叙事讲的挺完整了,谈谈对于这东西的理解(结合 calude 的分析)

传统智驾的问题是"反应式"——看到什么,执行什么。比如司机只盯着眼前一米,遇到情况才踩刹车。X-Foresight想做的是"预测式"——让模型在决策动作的同时,同步预测未来几秒的世界状态是什么样的。

自动驾驶需要靠海量驾驶视频,来学习物理世界的运行规律——行人怎么反应、车怎么运动、路口信号灯怎么切换。X-Foresight的做法是把世界建模直接嵌入VLA架构,联合预测未来画面和驾驶动作,逼着模型去理解"为什么这么开",而不只是记住"遇到这个情况该怎么操作"。

小鹏提到了一个训练难题【长时预测】:预测的时间越长,模型越容易"摆烂"——不再真正理解物理规律,而是简单地把上一帧的画面往后延伸,像把照片模糊地往前拉,而不是真正在推演"接下来会发生什么"。

他们的解法是把时间序列切成一段一段来处理:每段内部看得很细,捕捉车辆转弯、行人突然移动这类瞬间;段与段之间跳跃式推进,学习更长时间跨度里的因果关系。

就像看球赛,既要看清每一脚传球的细节,又要理解整场战术是怎么演变的,两件事不能只用一个节奏来看。底层的计算方式也跟着改了,否则序列越长算力消耗越爆炸,根本没法量产落地。

数据上用了28万小时、3400万条视频片段,token规模13.8万亿,7路环视360度覆盖。

小鹏的实测数据是:碰撞率相对降低16.2%,安全、合规指标分别提升9.1%和8.2%。两个具体场景——多出口环岛能精准锁定目标出口不跑错,夜间路口能预判信号灯切换平稳通过,而不是盲目制动。

有人会说,小鹏不是已经有X-World了吗?为什么有这个X-Foresight。

大致区别在于,X-World是仿真系统——负责生成虚拟场景、验证模型,是个"练兵场"。X-Foresight做的是把世界预测直接焊进决策模型里,预测未来画面和输出驾驶动作同时发生——预测错了,驾驶决策自然也会跟着出问题,两件事绑在一起训练,世界知识就不是外挂进来的补丁,而是融进了开车这件事本身里。两者的分工是:X-World负责造环境,X-Foresight负责让模型真正理解环境。

X-World管仿真,X-Cache管推理加速,X-Foresight管世界知识学习——三个东西加在一起,应该是小鹏一套完整的东西。