CQ的智能汽车科普
晚上聊点科普~小米机器人团队今天在CVPR和ICRA两个会上同时拿了冠军。两个赛道性质不一样,说一下各自在解决什么问题。
先说CVPR
任务是30个真实操作,双手协作、多步骤、中间不能有人介入。小米成功率40.89%,是唯一突破40%的队伍。
他们的模型叫WAM(世界动作模型),本质是把"大脑+小脑+记忆"三件事装进一个统一模型里。
大脑部分用的是多模态大模型,负责理解——看懂任务、分配左右手、拆解目标。这是S2系统,处理"要做什么"。
小脑部分用的是世界模型,负责执行——对双臂未来轨迹进行建模,提前预测两只手会不会在共享工作空间里冲突,在动作发生之前就把轨迹一致性约束好。这是S1系统,处理"怎么做准"。两套系统同时跑,分工不抢活。
机器人做多步骤任务有个明显的问题:做到第三步的时候,它可能已经不记得第一步做了什么,也不清楚整个任务还剩几步——类似人做复杂操作时突然"懵了",不知道自己做到哪了。
小米的方法是显式地给模型装两块记忆:一块管"全局",持续跟踪整个任务做到哪一步、哪个子目标完成了;一块管"近期",记住最近几个动作做了什么、观察到什么。两块同时工作,模型既不会忘记整体进度,也不会忘记刚刚发生的事。
显式记录之后,"按按钮"成功率做到了90%,"小勺舀取"是其他队伍的4倍。
再说ICRA
场景是超市抓饮料,16大类20小类,机器人要识别、移动、抓取、放进购物车。小米成功率94%,第二名84%,复杂任务成功率90%,简单任务100%。
这里核心不是模型,是工程路线:高保真数字孪生+Sim-to-Real闭环。
具体做法是赛前在电脑里搭一个1:1的虚拟超市。但这个"1:1"不只是视觉上像,还要几何一致、尺度一致、坐标一致、接触一致——几何决定机器人能不能规划正确的抓取路径,尺度决定仿真里的可达性判断能不能迁移到真实环境,坐标决定相机、机器人位姿、物体位置能不能在同一空间里稳定闭环,接触决定抓取和放置动作是否可靠。差任何一个维度,仿真里跑通了真实场景还是会崩。
物理属性也要补全——饮料瓶、货架、购物车的质量、摩擦系数、阻尼、质心位置都用VLM结合几何先验来估计。不然仿真里的物理交互和真实不一致,Sim-to-Real迁移会出问题。
在这套仿真系统里,提前把所有失败模式——站位偏差、末端不可达、碰撞风险——全部暴露并修掉,最终真实评测不需要大量真机试错,直接拿到94%和99.2分。
CVPR那个解决的是"模型够不够聪明、记忆够不够好",ICRA那个解决的是"工程落地够不够稳"。小米把两套能力同时展示出来,背后对标的是工厂产线——世界模型+双轨记忆管复杂操作,数字孪生+Sim-to-Real管部署成本。小米汽车