GLM-5.2 说自己用的是PPO而不是GRPO (也就是之前DeepSeek R1 用的方法),也就是说做RL的时候还是需要一个critic model来估计value。
让模型自己探索的效率太低了我们没有这么多算力,蒸馏最先进的闭源模型只能让我们接近而不能超越,我猜这些都不如蒸馏最先进的人类,人类的工作流说少不少说多不多,一个AI公司招人覆盖能被用到AI的领域也许比显卡便宜多了。
所谓人类和模型的Co-Training。
@aigc1024
 
 
Back to Top