本次更新新增约 3 万余字,重点优化和扩展了《5 故障应急》章节内容:新增了 B 站和蚂蚁的在 Qcon 上海SRE专场上分享的两个案例。并根据实际需求,调整“应用服务 SLI/SLO/SLA” “重大技术保障”章节至本章,并在后者新增《OPPO 春节业务保障》案例; 最后,重点完善了故障体系的内容, 使其更接近实际的工作情况。
本次更新内容实用性极强,推荐广大 SRE 同仁深入阅读,以助力各组织优化故障应急体系设计,提升整体应急响应能力。
5.3.7 蚂蚁故障应急全流程体系构建及应用实践
本案例来自蚂蚁集团的平台工程与技术风险部行业一线的实践总结构建了完善的故障应急全流程体系,主要亮点包括:明确故障定义和分级,聚焦关键业务的GOC场景,专注保障最重要的服务接口和结果点,驱动业务稳定性建设;还建立极具特色的应急值班长体系,明确应急角色和职责,提升组织协同能力;开发技术风险管理平台(TRM),实现故障全生命周期的数字化运营,相关工作令人。 在展望未来时,此次分享向SRE领域的同仁们展示了人工智能与SRE Agent如何增强应急响应能力,并在智能化故障定位、决策和处理方面展现出巨大潜力,极具启发性。
5.3.6 B站轻量级容灾演练体系构建
B站的轻量级容灾演练体系构建聚焦于高效、低成本地确保系统稳定性。首先,通过建立原子级故障库和特化场景,演练对象和故障类型变得标准化,易于操作。演练体系涵盖技术支撑、跨领域赋能、组织文化及流程优化,以实现常态化、自动化的演练环境。其核心亮点包括:简化故障注入流程、丰富的观测能力、自动化参数计算、标准化的演练协议、以及跨部门的协同机制。演练的目标是通过自动化工具支持,降低操作复杂度,确保演练可以在没有SRE人员的情况下自主管理,最终推动全员参与的容灾演练文化,增强业务系统的抗压能力和恢复能力。此实践考虑充分,方案完整,工程化实践扎实,在业界中处于较为领先的地位,具备很强的参考意义。
6.2.5 Oppo 春节业务保障
作为国民级手机品牌,Oppo的部分云端的业务,在重大节日时会面临超过平时10倍的流量洪峰冲击。本案例详细阐述了如何在极短的时间内应对未曾经历过的流量洪峰挑战新业务的活动保障的全过程——从准备、活动执行到总结。特别地,它涵盖了诸多相关细节,例如对非常规增量流量的考量、值班计划、降级方案以及资源预估等。这些内容对于拥有类似业务形态的公司来说,很很强的实操性参考。
反馈和沟通
如果您有任何问题或建议,点这里提交联系我们。
也欢迎使用 GitHub 的 issue & Discussions 功能来提交您的问题或讨论。