GLM-5.2 说自己用的是PPO而不是GRPO (也就是之前DeepSeek R1 用的方法)，也就是说做RL的时候还是需要一个critic model来估计value

GLM-5.2 说自己用的是PPO而不是GRPO (也就是之前DeepSeek R1 用的方法)，也就是说做RL的时候还是需要一个critic model来估计value。
让模型自己探索的效率太低了我们没有这么多算力，蒸馏最先进的闭源模型只能让我们接近而不能超越，我猜这些都不如蒸馏最先进的人类，人类的工作流说少不少说多不多，一个AI公司招人覆盖能被用到AI的领域也许比显卡便宜多了。
所谓人类和模型的Co-Training。
@aigc1024