https://mp.weixin.qq.com/s/23hV-7EVyk-r1-tsBykRuQ
现在回头看,RWKV 坚持的方向,正在被行业验证:
下一代大模型不能永远依赖越来越大的 KV cache。长上下文、高并发、多 Agent、端侧部署,本质上都需要更高效的状态式记忆机制:有限状态、线性递推、gating、delta rule、恒定推理开销。
RWKV-7 很早就公开提出并验证了 generalized delta rule、vector-valued gating、状态式推理、恒定内存等关键思路,并且开源了模型和代码。
后来大家在这个方向上继续研究,是好事。但也希望技术社区能更准确地呈现这条路线的源流。
@aigc1024