【[35星]Trinity-RFT:为大语言模型的强化微调提供通用、灵活且可扩展的框架。亮点:1. 统一支持同步/异步、on-policy/off-policy/offline等多种训练模式;2. 支持Agent与环境的延迟奖励交互,处理复杂反馈;3. 提供优化的数据处理管道,支持多样化、复杂的数据处理】
'Trinity-RFT is a general-purpose, flexible and scalable framework designed for reinforcement fine-tuning (RFT) of large language models (LLM).'
GitHub: github.com/modelscope/Trinity-RFT
强化学习 大语言模型 数据处理 AI创造营