一个从头实现 DeepSeek R1 的 GRPO 算法的项目
github.com/policy-gradient/GRPO-Zero
该实现的依赖很少,无需依赖 transformers 和 vLLM ,且 GPU 内存占用极低。并在原始 GRPO 算法基础上做了多项改进。
AI创造营
一个从头实现 DeepSeek R1 的 GRPO 算法的项目
github.com/policy-gradient/GRPO-Zero
该实现的依赖很少,无需依赖 transformers 和 vLLM ,且 GPU 内存占用极低。并在原始 GRPO 算法基础上做了多项改进。
AI创造营
作者最新文章
热门分类
科技TOP
科技最新文章
随机资讯