π0.7:一个具备涌现能力的可引导模型
π0.7,它在泛化能力上实现了阶段性的跃升。π0.7是一个通用模型,能够以与经过微调的专家模型相同的性能执行广泛的灵巧任务,但更重要的是,它能够遵循新的语言指令,并执行在其训练数据中从未见过的任务。在我们的实验中,我们看到 π0.7 展现出了组合泛化 (compositional generalization) 的初步迹象,能够重新组合各种任务中的技能来解决新问题,比如使用新的厨房电器,甚至能让一个全新的机器人在完全没有相关数据的情况下折叠衣物。
虽然这种泛化能力一直被认为是机器人基础模型的关键优势,但迄今为止展示的实际模型并没有表现出我们从大型语言模型(LLM)中看到的那种广泛的组合泛化能力。LLM 可以以新的方式组合其训练数据中的概念:如果一个 LLM 知道如何将英语翻译成法语,并且知道如何生成 JSON 输出,它就可以直接提供 JSON 格式的翻译。视觉-语言-动作(VLA)模型可以理解多种语义概念,但尚未被证明能够以新的方式组合技能,比如使用新工具或新厨房电器。即使是对于在训练中见过的技能,通常也需要通过对模型进行该技能的微调才能获得最佳结果,这很像早期的语言模型需要针对特定问题领域进行微调一样。
一个真正的通用模型应该能够开箱即用地执行所有技能,并能够将它们重新组合以解决新任务。π0.7 展示了这种通用能力的初步迹象:它可以像我们之前展示的由强化学习(RL)微调的 π* 0.6 专家模型一样,以相同的速度和鲁棒性执行灵巧操作技能;它能够组合和重构它学到的技能来解决新任务;并且它能比我们以前的模型更有效地在不同的机器人平台、场景和任务之间进行泛化。无论从精细操作到长周期的家庭行为,所有这些都只需要这一个开箱即用的模型。
是什么让 π0.7 的泛化能力如此广泛?
在提示(prompt)中添加多样化的上下文。
利用包含多样化条件约束的更多数据。
组合任务泛化。
跨实体(跨形态)迁移。
基于速度和最优性的条件约束。
在灵巧任务上的开箱即用性能。
下一步是什么?
像 π0.7 这样强大且可控的模型,未来可能会通过让模型“思考”执行任务的可能方法,利用其遵循多样化提示的能力将这些想法转化为行动,然后再反思结果以修改任务计划,从而解决更复杂的未知任务。有效的提示遵循和泛化不仅让人们能够更好地指挥机器人,更让现代基础模型能够将其语义泛化能力成功转化为真实的物理泛化能力。
 
 
Back to Top