清华大学 MARS 实验室推出 OMG 全模态人形运动生成框架，创新打造 “生成大脑 + 跟踪小脑” 的分层控制方案

清华大学 MARS 实验室推出 OMG 全模态人形运动生成框架，创新打造 “生成大脑 + 跟踪小脑” 的分层控制方案。
团队搭建千小时级专属多模态机器人数据集，依托扩散模型构建通用运动生成网络，让机器人可实时响应文本、音频、人体动作及组合指令，自主生成稳定可执行的全身运动轨迹。
实测结果显示，OMG 不仅多项性能指标领跑主流模型，还具备大模型专属的规模缩放、小样本泛化、零样本模态组合能力，为人形机器人通用智能控制落地提供了全套开源方案。
模型直接在宇树 G1 原生 125 维机器人动作空间完成训练与生成，无需额外的人体 - 机器人转换编码器。网络主体基于 DiT 构建去噪主干，结合 RoPE 旋转位置编码与时序自注意力机制，精准建模全身运动的时序关联。训练阶段通过随机模态丢弃策略，配合推理阶段的无分类器引导，实现单模态与多模态组合指令的灵活切换。
论文地址：https://arxiv.org/abs/2606.10340项目主页：https://tsinghua-mars-lab.github.io/OMG/开源代码：https://github.com/Tsinghua-MARS-Lab/OMG作者单位：清华大学 MARS 实验室
https://mp.weixin.qq.com/s/KOtknR3Rvq5oY7NuJz3Yhg
@aigc1024