π0.7:复刻LLM的关键时刻
π0.7是 PI 第一次在论文里展示,机器人能做"训练数据里完全没有"的任务。
核心概念是 compositional generalization(组合泛化)——"组合泛化是指把在不同情境下学到的技能组合起来,去解决模型从未见过的问题的能力"。"在此之前,机器人训练的标准做法本质上就是死记硬背——为某个特定任务收集数据,训练一个专门模型,然后对每个新任务重复这个过程。π0.7 打破了这个模式"。
最有说服力的实验:跨机器人本体的零样本迁移。用 A 机器人(小型、灵活)的叠衣服数据训练,让 B 机器人(重型工业臂、惯量大、夹爪不精准)零样本叠衣服并成功。这相当于一个人只看过别人用筷子吃饭,自己就直接能用刀叉吃饭——动作模式完全不一样,但"叠衣服"这个抽象概念被模型学会了,并且能映射到完全不同的"身体"上。
PI 自己的措辞非常克制——这是好的科学态度,但也意味着别过度兴奋:"论文本身全程使用谨慎措辞,把 π0.7 描述为展现了泛化的'早期迹象'和新能力的'初步演示'。这些是研究结果,不是已部署的产品"。
下一波要看的是:(1)开源后第三方能不能复现;(2)在真实部署里(不是实验室)的成功率;(3)下一代 π1 出来时这个泛化能力是继续涨还是平台化。
π0.7是 PI 第一次在论文里展示,机器人能做"训练数据里完全没有"的任务。
核心概念是 compositional generalization(组合泛化)——"组合泛化是指把在不同情境下学到的技能组合起来,去解决模型从未见过的问题的能力"。"在此之前,机器人训练的标准做法本质上就是死记硬背——为某个特定任务收集数据,训练一个专门模型,然后对每个新任务重复这个过程。π0.7 打破了这个模式"。
最有说服力的实验:跨机器人本体的零样本迁移。用 A 机器人(小型、灵活)的叠衣服数据训练,让 B 机器人(重型工业臂、惯量大、夹爪不精准)零样本叠衣服并成功。这相当于一个人只看过别人用筷子吃饭,自己就直接能用刀叉吃饭——动作模式完全不一样,但"叠衣服"这个抽象概念被模型学会了,并且能映射到完全不同的"身体"上。
PI 自己的措辞非常克制——这是好的科学态度,但也意味着别过度兴奋:"论文本身全程使用谨慎措辞,把 π0.7 描述为展现了泛化的'早期迹象'和新能力的'初步演示'。这些是研究结果,不是已部署的产品"。
下一波要看的是:(1)开源后第三方能不能复现;(2)在真实部署里(不是实验室)的成功率;(3)下一代 π1 出来时这个泛化能力是继续涨还是平台化。