CQ的智能汽车科普晚上聊点科普～小米机器人团队今天在CVPR和ICRA两个会上同

CQ的智能汽车科普

晚上聊点科普～小米机器人团队今天在CVPR和ICRA两个会上同时拿了冠军。两个赛道性质不一样，说一下各自在解决什么问题。

先说CVPR

任务是30个真实操作，双手协作、多步骤、中间不能有人介入。小米成功率40.89%，是唯一突破40%的队伍。

他们的模型叫WAM（世界动作模型），本质是把"大脑+小脑+记忆"三件事装进一个统一模型里。

大脑部分用的是多模态大模型，负责理解——看懂任务、分配左右手、拆解目标。这是S2系统，处理"要做什么"。

小脑部分用的是世界模型，负责执行——对双臂未来轨迹进行建模，提前预测两只手会不会在共享工作空间里冲突，在动作发生之前就把轨迹一致性约束好。这是S1系统，处理"怎么做准"。两套系统同时跑，分工不抢活。

机器人做多步骤任务有个明显的问题：做到第三步的时候，它可能已经不记得第一步做了什么，也不清楚整个任务还剩几步——类似人做复杂操作时突然"懵了"，不知道自己做到哪了。

小米的方法是显式地给模型装两块记忆：一块管"全局"，持续跟踪整个任务做到哪一步、哪个子目标完成了；一块管"近期"，记住最近几个动作做了什么、观察到什么。两块同时工作，模型既不会忘记整体进度，也不会忘记刚刚发生的事。

显式记录之后，"按按钮"成功率做到了90%，"小勺舀取"是其他队伍的4倍。

再说ICRA

场景是超市抓饮料，16大类20小类，机器人要识别、移动、抓取、放进购物车。小米成功率94%，第二名84%，复杂任务成功率90%，简单任务100%。

这里核心不是模型，是工程路线：高保真数字孪生+Sim-to-Real闭环。

具体做法是赛前在电脑里搭一个1:1的虚拟超市。但这个"1:1"不只是视觉上像，还要几何一致、尺度一致、坐标一致、接触一致——几何决定机器人能不能规划正确的抓取路径，尺度决定仿真里的可达性判断能不能迁移到真实环境，坐标决定相机、机器人位姿、物体位置能不能在同一空间里稳定闭环，接触决定抓取和放置动作是否可靠。差任何一个维度，仿真里跑通了真实场景还是会崩。

物理属性也要补全——饮料瓶、货架、购物车的质量、摩擦系数、阻尼、质心位置都用VLM结合几何先验来估计。不然仿真里的物理交互和真实不一致，Sim-to-Real迁移会出问题。

在这套仿真系统里，提前把所有失败模式——站位偏差、末端不可达、碰撞风险——全部暴露并修掉，最终真实评测不需要大量真机试错，直接拿到94%和99.2分。

CVPR那个解决的是"模型够不够聪明、记忆够不够好"，ICRA那个解决的是"工程落地够不够稳"。小米把两套能力同时展示出来，背后对标的是工厂产线——世界模型+双轨记忆管复杂操作，数字孪生+Sim-to-Real管部署成本。小米汽车

铭鸿体育资讯网

CQ的智能汽车科普晚上聊点科普～小米机器人团队今天在CVPR和ICRA两个会上同

热门分类