一个从头实现DeepSeekR1的GRPO算法的项目github.co

又仁看科技 2025-05-19 19:49:19

一个从头实现 DeepSeek R1 的 GRPO 算法的项目

github.com/policy-gradient/GRPO-Zero

该实现的依赖很少，无需依赖 transformers 和 vLLM ，且 GPU 内存占用极低。并在原始 GRPO 算法基础上做了多项改进。

AI创造营

0 阅读：1

又仁看科技

感谢大家的关注

作者最新文章

1

电子书《给研究生的学术建议》中文翻译psychelzh.github.io/ph

2

AniruddhaChattopadhyay个人收藏的免费人工智能与机器学习书籍

3

玄戒O1的一些网传资料~1. CPU是10核的，2 核 @ 1.80GHz、2

4

：《2025年优秀公关案例：全棉时代 5 步走修复信任，教科书级操作解析》

5

一张关于 C++ std::numeric_limits 模板的速查表图自hac

6

塞巴斯蒂安• 拉施卡写的《从零构建大模型》除了书籍内容之外，配套的github仓

7

一个从头实现 DeepSeek R1 的 GRPO 算法的项目github.co

8

小米玄戒累计研发投入已超135亿根据雷军的博文和网传消息汇总玄戒相关信息：1.

9

黑客攻防地址空间：我能向空指针写入数据吗？mohitmishra786.gith

10

鸿蒙电脑MateBook Pro首发评测华为鸿蒙电脑一周体验看了下话题里对华为

热门分类

推荐热榜军事 NBA 体育社会明星八卦娱乐财经科技汽车历史国际游戏动漫公益搞笑商业互联网数码国际足球房产家居时尚科学探索职场育儿股票教育影视情感热点中国军情武器中国南海中国足球亚洲杯科比综合体育 CBA 投资楼市大咖秀外汇创业风口 SUV 豪车概念车优惠新能源美国欧洲朝日韩俄罗斯孕期街拍恋爱攻略婚姻正能量

科技TOP

1

说刘强东作秀的，你们让王兴也秀一个噻，或者你们自己做一天体验一下。一个千亿身价的

2

目前接近完美的6部手机，有你在用的嘛？

3

好纠结呀！现在的小屏手机到底哪款性价比最出色呢？

4

一个人躺在沙发上玩手机。

5

昨天，华为终端发布华为nova全球代言人易烊千玺手持华为nova14系列的海报

6

国外拆解Mate30，零部件国产率仅为30%，国外拆解Mate30 5G，零部

7

618手机大促，不同价位手机，超值推荐！你觉得618购买手机性价比高吗？

8

格力电器董明珠董事长的“海归论”，遭到一些人的批评和质疑，个人觉得大可不必。

9

刚刚！#一加13T#首销10分钟破两亿！这手机我也用了几天，最大的感受是真爽，单

10

网传华为nova14部分规格曝光：全系内存12GB，超大杯麒麟9系芯片+红枫多光

科技最新文章

1

我以为预约会是20000台，也以为预约会是40000台。但是，万万没想到，华为折

2

荣耀400系列曝光了！全系7200mAh大电池，6.55英寸塞下7200mAh，

3

雷总说：3nm芯片已开始大规模量产。上网查了一下，华为的芯片麒麟9200还是采用

4

原本以为手机开箱都差不多，结果刷到华为nova14系列的浮光金配色的那一刻，确

5

一加Ace5至尊系列官宣5月27日发布，竞速版搭载天玑9400e处理器，至尊版搭

6

一加手机设计不套娃了，上回13T是一个样，现在Ace5至尊又另一个样。至于金色机

7

我问我老公:小米花135亿就造出了3纳米芯片，是真的吗？老公斜我一眼:如果从

8

华为鸿蒙PC的价格远超预期啊！本以为华为鸿蒙PC会万元起步，结果才7999起

9

雷军现在可能连手机都不想看了。贵阳车主称小米SU7行驶中突现制动延迟，擦碰护

10

华为nova1412+256GB2699元12+512GB2999元12+5

随机资讯

1

高薪低能？保罗乔治的挣扎与快船的明智选择——NBA球星价值何在？

2

逆转之谜：王祉怡如何在领先后痛失好局？

3

中超转会风云再起：莱昂纳多加盟上海海港，能否重燃夺冠希望？

4

曼城豪掷1.5亿欧元签下4大巨星，能否逆转英超争冠局势？

5

洛夫顿缺阵，上海男篮如何保持连胜势头？揭秘霍金斯的生涯之夜！

6

福建队如何在逆境中逆袭新疆队？揭秘篮球赛场上的惊天逆转！

7

CBA裁判会议聚焦张宁与徐杰：公正判罚还是过度针对？

8

西班牙足球的巅峰对决：皇马与巴萨，谁能主宰国家德比？

9

上海男篮能否在缺少双核的情况下战胜江苏队？

10

北控男篮关键时刻罚球失误，广东男篮能否延续连胜纪录？