6月3日,清华蚂蚁联合研发的全异步强化学习训练系统AReaL-boba 2 (AReaL v0.3)正式宣布开源。 项目地址: 系列模型上做强化学习训练,实现8B、14B 模型在 LiveCodeBench, Codeforce, Codecontest 等benchmark上达到SOTA水准。此外, AReaL-boba 2 还原生支持多轮智能体强化学习训练 ...