【[55星]PipelineRL:一个可扩展的异步强化学习实现,能够在运行中更新权重,最大化GPU利用率,同时尽可能保持策略更新的实时性。亮点:1. 支持单节点和多节点部署,灵活适应不同硬件配置;2. 提供文件系统和Redis两种数据流方式,可根据需求选择;3. 仅需8个H100 GPU即可运行单节点实验,入门门槛低】
'PipelineRL: A scalable asynchronous reinforcement learning implementation with in-flight weight updates.'
GitHub: github.com/ServiceNow/PipelineRL
强化学习 GPU优化 分布式训练 AI创造营