[RO]《GRAIL: Generating Humanoid Loco-Manipulation from 3D Assets and Video Priors》T Xie, H Zhang, J Park, Z Wang,… [NVIDIA] (2026)
在人形机器人全身操作中,难题是缺少可规模化的机器人可执行示范。过去方法受困于遥操作、动捕或野外视频重建,本质原因是物理场景、人形尺度和接触状态难以反复采集。
本文的核心洞见是:把视频模型重新看作“交互先验”,而非直接数据源。由此,先固定3D资产、相机、尺度和机器人形态,再生成并重建4D交互轨迹。
这项工作真正留下的遗产是把机器人数据采集前移到纯数字世界。它打开的新门是用合成数据训练真实G1;但尚未跨过的门槛是仍依赖高质量3D资产和视频模型稳定性。
arxiv.org/abs/2606.05160 机器学习 人工智能 论文 AI创造营







