从 0 到 1 带你搞定系统稳定性
理解 SRE 的正确姿势
10+ SRE 必学必会知识点
可落地的故障应急处理机制
2 种典型 SRE 组织架构案例分享
这个课程分为基础篇和实践篇两大模块。
- 基础篇:带你从实践的角度理解 SRE 是什么,并以 SRE 的基本概念 SLO 和 SLI 作为切入点,教你一步步建立起 SRE 稳定性标准。最后结合具体的电商案例,分享在实际场景中设定稳定性目标应该考虑的因素。
- 实践篇:围绕“故障”这个影响稳定性的核心事件,分享故障发现、故障处理、故障复盘三个阶段的最佳实践。同时,着眼落地 SRE 时绕不开的组织架构问题,分享真实的组织架构设置实践和高效的跨团队协作经验。
〖资源截图〗:

SRE 实战手册