人形机器人,目前虽然概念新颖,投资火爆,但也长期面临的一个困境是:能走、能跑,甚至能后空翻,但它不会工作,很多展示视频背后仍然需要大量预设程序和人工控制。
而2025年以来,AI大模型的发展开始改变这一切。过去一年,VLA模型(视觉-语言-动作)几乎是具身智能的代名词。但在这次高盛的调研发现,讨论的边界已经被明显拓宽。头部玩家开始普遍采用VLA/VTLA(加入触觉模态)+世界模型的多模态架构。在这个架构中,世界模型作为功能层,通过预测和验证动作,提升机器人在真实环境中的规划能力与鲁棒性。
不过,技术架构的演进也并未解决所有问题。高盛在调研报告中多次提到:高质量、多维度的真实世界数据,依然是当前人形机器人大规模落地的最大因素。
日前,英伟达CEO黄仁勋宣布与宇树科技合作,推出人形机器人参考设计H2+。黄仁勋直言:“对于智能体系统、机器人系统和物理AI来说,数据是最难解决的问题。”在黄仁勋看来,机器人需要第一人称视角的训练数据,但全球绝大多数视频数据是第三人称视角。
同期,山姆·阿尔特曼发布OpenAI Robotics的招聘启事,正式宣布进军实体机器人。这家在大语言模型和虚拟智能体上拥有绝对话语权的公司,如今也意识到:没有真实世界的物理交互数据,智能体就永远停留在屏幕里。
