技术文章 论文阅读翻译之Deep reinforcement learning from human preferences 最近在将强化学习 (RL) 扩展到大规模问题上取得的成功,主要得益于那些具有明确奖励函数的领...