清华大学 MARS 实验室推出 OMG 全模态人形运动生成框架,创新打造 “生成大脑 + 跟踪小脑” 的分层控制方案。
团队搭建千小时级专属多模态机器人数据集,依托扩散模型构建通用运动生成网络,让机器人可实时响应文本、音频、人体动作及组合指令,自主生成稳定可执行的全身运动轨迹。
实测结果显示,OMG 不仅多项性能指标领跑主流模型,还具备大模型专属的规模缩放、小样本泛化、零样本模态组合能力,为人形机器人通用智能控制落地提供了全套开源方案。
模型直接在宇树 G1 原生 125 维机器人动作空间完成训练与生成,无需额外的人体 - 机器人转换编码器。网络主体基于 DiT 构建去噪主干,结合 RoPE 旋转位置编码与时序自注意力机制,精准建模全身运动的时序关联。训练阶段通过随机模态丢弃策略,配合推理阶段的无分类器引导,实现单模态与多模态组合指令的灵活切换。
论文地址:https://arxiv.org/abs/2606.10340项目主页:https://tsinghua-mars-lab.github.io/OMG/开源代码:https://github.com/Tsinghua-MARS-Lab/OMG作者单位:清华大学 MARS 实验室
https://mp.weixin.qq.com/s/KOtknR3Rvq5oY7NuJz3Yhg
@aigc1024
团队搭建千小时级专属多模态机器人数据集,依托扩散模型构建通用运动生成网络,让机器人可实时响应文本、音频、人体动作及组合指令,自主生成稳定可执行的全身运动轨迹。
实测结果显示,OMG 不仅多项性能指标领跑主流模型,还具备大模型专属的规模缩放、小样本泛化、零样本模态组合能力,为人形机器人通用智能控制落地提供了全套开源方案。
模型直接在宇树 G1 原生 125 维机器人动作空间完成训练与生成,无需额外的人体 - 机器人转换编码器。网络主体基于 DiT 构建去噪主干,结合 RoPE 旋转位置编码与时序自注意力机制,精准建模全身运动的时序关联。训练阶段通过随机模态丢弃策略,配合推理阶段的无分类器引导,实现单模态与多模态组合指令的灵活切换。
论文地址:https://arxiv.org/abs/2606.10340项目主页:https://tsinghua-mars-lab.github.io/OMG/开源代码:https://github.com/Tsinghua-MARS-Lab/OMG作者单位:清华大学 MARS 实验室
https://mp.weixin.qq.com/s/KOtknR3Rvq5oY7NuJz3Yhg
@aigc1024