先说训练方案,论文先是分析了模型在微调过程中能力损失的一个主要原因是
Format Specialization,也就是模型过拟合了微调任务的输出格式。举几个例子