技术文章 解密prompt系列24. RLHF新方案之训练策略:SLiC-HF & DPO & RRHF & RSO 去年我们梳理过OpenAI,Anthropic和DeepMind出品的经典RLH... 2 月前
技术文章 面试官不按套路出牌,上来就让聊一聊Java中的迭代器(Iterator ),夺命连环问,怎么办? 写在开头 某大厂的面试现场,一位目光深邃,头顶稀疏的中年面试官坐在椅子上,这时候... 2 月前