Copyright 2014-2025 观经济 版权所有 京ICP备20151973号-1
本文共同第一作者为李鸿宇(布朗大学博士生)和孙凌峰(Robotics and AI Institute 研究员,博士毕业于加州大学伯克利分校)。通讯作者付佳慧在 Robotics and AI Institute 任研究员,博士毕业于麻省理工学院。George Konidaris 为布朗大学副教授。
构建能够在新环境中、无需任何针对性训练就能执行多样化任务的通用机器人,是机器人学领域一个长期追逐的圣杯。近年来,随着大型语言模型(LLMs)和视觉语言模型(VLMs)的飞速发展,许多研究者将希望寄托于视觉 - 语言 - 动作(VLA)模型,期望它们能复刻 LLM 和 VLM 在泛化性上取得的辉煌。然而,理想很丰满,现实却很骨感。VLA 模型的端到端训练范式,要求海量与特定机器人相关的 “视觉 - 语言 - 动作” 数据。与 LLM 和 VLM 可以轻易获取的网络规模数据不同,机器人数据的采集成本极高、难度极大,这形成了一个巨大的 “数据瓶颈”。有没有可能绕过这个瓶颈,让机器人不依赖于昂贵的 “亲身经历” 数据,也能学会新技能呢?
最近,来自布朗大学(Brown University)和机器人与人工智能研究所(Robotics and AI Institute,前波士顿动力人工智能研究所)的研究团队提出了一个全新的自动操作框架NovaFlow。该方法另辟蹊径,不再要求通过机器人或者人类演示去收集数据,而是巧妙地利用了大型视频生成模型中蕴含的、源于互联网海量视频的 “常识” 知识。通过让机器人 “观看” 由视频模型生成的任务视频,并从中提炼出一种名为 “可执行 3D 对象流” 的任务表征,NovaFlow 成功实现了在无需任何真实演示或额外训练的情况下,让机器人零样本(Zero-Shot)完成复杂的操控任务。这项工作为通用机器人的实现提供了一条极具潜力的新路径。