欢迎光临
我们一直在努力

Hugging Face Accelerate 两个后端的故事:FSDP 与 DeepSpeed

最近,我们尝试分别使用 DeepSpeed 和 PyTorch FSDP 进行训练,发现两者表现有所不同。我们使用的是 Mistral-7B 基础模型,并以半精度(
bfloat16)加载。可以看到 DeepSpeed(蓝色)损失函数收敛良好,但 FSDP(橙色)损失函数没有收敛,如图 1 所示。

未经允许不得转载:大有博文 » Hugging Face Accelerate 两个后端的故事:FSDP 与 DeepSpeed
分享到: 更多 (0)

大前端WP主题 更专业 更方便

联系我们联系我们