• 首页
  • 《SRE实践白皮书》v1.0.4 发布

《SRE实践白皮书》v1.0.4 更新版。

3rd Sep, 2024

本次更新了两章内容,主要聚焦于《研发保障》和《故障应急》两大核心部分,整体文章结构进行了优化,新增7个案例,共计7.2万字。新增内容涵盖互联网、运营商、银行及金融等多个行业。其中,《故障应急》章节深入解析了多家企业的应急响应体系,内容充实且实用性强。而《研发保障》章节则探讨了SRE工作左移的前沿实践,包含了企业代码级的细致案例分享,极具参考价值。

2.3.1 腾讯游戏全球研发保障实践

SRE Elite精选原因

这是一个完整的游戏行业研发保障案例。面对游戏研发中的复杂研发管线、大文件版本管理、冗长的构建过程和频繁的更新需求等挑战,SRE团队通过稳定性保障、平台工具建设、以及与业务开发团队的有效分工,实现了高效的研发保障。 此案例覆盖了研发保障的多个关键模块,在代码可靠性,代码仓库可靠性、制品分发、以及构建加速等多个方面进行了优化,显著提升了代码提交和构建的成功率,并有效解决了代码库卡顿和文件分发效率低等问题。相关的优化内容非常的详尽细节, 具有很强的实践性,且大部分关键组件提供了开源的实现案例,非常值得参考。

腾讯游戏全球研发保障实践

2.3.2 某语音直播公司研发过程保障实践

SRE Elite精选原因

此案例展示了某语音直播公司在现代化软件架构下的研发保障实践。面对微服务、容器化和服务网格等新技术带来的挑战,该公司构建了全面的研发保障体系,涵盖快速发布、稳定性保障、代码可靠性和服务运行等多个关键模块。其中,采用服务网格进行环境隔离和金丝雀发布,属行业内的创新实践,体现了深入的云原生应用。此外,通过IDE插件对接环境进行调试,大幅提升了问题排查的效率。此案例实践性强、创新性高,具有广泛的借鉴意义。

某语音直播公司研发过程保障实践

5.3.1 小米故障应急响应经验分享

小米拥有很强的硬件基因文化,因为如果硬件出现质量问题, 相关的修复成本将会非常巨大。所以其质量有独特的要求, 小米拥有独立QA 团队, 对运维质量进行考核及管控,构成了其独特的故障管理体系以及复盘的体系, 可供有类似业务特性的组织进行参考。

小米故障应急响应经验分享

5.3.2 中国联通数字化监控平台稳定性保障实践

中国联通作为国家重点央企,长期以来以其庞大的业务体系和稳健的运营著称,面对数字化转型的浪潮,中国联通积极推动核心业务系统向云原生架构大规模演进,面临着技术革新的复杂挑战,还需确保转型过程中的系统稳定性。此案例探索并构建了一套符合稳态企业的稳定性保障方案、策略及平台,并深度融合可落地的智能化 AIOPS能力,提升运维效率与故障处置速度,为其他稳态企业提供了可供参考的路径。

中国联通数字化监控平台稳定性保障实践

5.5.3 腾讯全球化游戏故障管理实践

腾讯游戏在全球运营的多个游戏业务中, 统一使用了SLO /SLI方法论, 对业务进行业务导向的监控可视化, 并使用了eBPF 等技术, 对业务进行无死角的观测,实现了业务服务的标准化度量,故障的快速感知及定位。 并能通过蓝鲸平台,实现部分部分固定场景的自愈,实现了监控与批量作业的联动,降低了MTTR,相关实践具备较强的落地性及可参考性。

腾讯全球化游戏故障管理实践

5.5.4 XX银行应急管理一体化平台建设实践

XX 银行是中国乃至全球规排名前列的商业银行,业务众多,客户群体遍布全球,且适逢整体IT 架构升级,数字化转型深入,技术挑战巨大。在这种背景下,XX 银行构建了符合金融行业强监管特性的三个一体化的应急管理平台:通过“一体化技术平台”实现了底层能力平台PaaS化,满足各种底层操作原子化包装的需求;通过“管理操作一体”,实现应急管理思想和自动化操作的同步;通过“数据融合一体化”,实现应急决策所需配置数据、执行数据、性能数据、变更数据的统一管理和展示 。通过以上以上三个一体化,降低了业务稳定性的风险, 值得广大金融行业参考。

XX银行应急管理一体化平台建设实践

5.5.5 美图故障管理体系搭建实践

美图在这个案例的分享中,展示了非常完整的SRE体系及故障管理体系,以故障生命周期管理为核心,引入了由人员、流程、技术和愿景构成的“PPTV框架”;并强调数据驱动的决策,倡导定期复盘和持续改进,通过构建稳定性运营平台,实现对故障事前、事中及事后的全方位管理,全面且扎实,很值得大家进行研读。

美图故障管理体系搭建实践

反馈和沟通

如果您有任何问题或建议,点这里提交联系我们

也欢迎使用 GitHub 的 issue & Discussions 功能来提交您的问题或讨论。

下载最新白皮书

版本:v1.0.4
下载