通过 RLOO,我们将强化学习重新引入 RLHF,使社区能够更轻松地探索在线 RL 方法。这令人兴奋,因为越来越多的研究表明,在线 RL 比 DPO 等离线方法更有效 (
https://arxiv.org/abs/2402.04792,
https://arxiv.org/abs/2405.08448)。