GRPO:零依赖版
github.com/policy-gradient/GRPO-Zero
GRPO 训练实现的极简依赖版本。几乎从零开始构建所有组件,仅依赖 tokenizers 进行分词处理,以及 pytorch 完成训练。
GRPO:零依赖版
github.com/policy-gradient/GRPO-Zero
GRPO 训练实现的极简依赖版本。几乎从零开始构建所有组件,仅依赖 tokenizers 进行分词处理,以及 pytorch 完成训练。
猜你喜欢
【1评论】【7点赞】
【4评论】【3点赞】
【108评论】【29点赞】
【112评论】【22点赞】
作者最新文章
热门分类
科技TOP
科技最新文章