技术文章 LLM 推理 – Nvidia TensorRT-LLM 与 Triton Inference Server 本文会介绍TensorRT-LLM与Triton的基本原理,并展示使用这两个组件部署LLM推...
技术文章 Hugging Face Accelerate 两个后端的故事:FSDP 与 DeepSpeed 最近,我们尝试分别使用 DeepSpeed 和 PyTorch FSDP 进行训练,发现两者...