一个从头实现DeepSeekR1的GRPO算法的项目github.co

又仁看科技 2025-05-19 19:49:19

一个从头实现 DeepSeek R1 的 GRPO 算法的项目

github.com/policy-gradient/GRPO-Zero

该实现的依赖很少,无需依赖 transformers 和 vLLM ,且 GPU 内存占用极低。并在原始 GRPO 算法基础上做了多项改进。

AI创造营 ​​​

0 阅读:1
又仁看科技

又仁看科技

感谢大家的关注