• 首页
  • 《SRE实践白皮书》v1.0.3 发布

《SRE实践白皮书》v1.0.3 更新版。

12th Jun, 2024

第四章做了大规模重构。

版本发布说明

根据业界经验以及Google 多本SRE 书籍中提到 ,70% 左右故障是由变更引起的。但是业务的发展变更是不可避免的,因此如何通过变更管理, 对变更的风险进行管控,尽可能的降低由变更带来的故障率和影响面,是提升稳定性的一条可持续、高ROI的路线, 也是每个SRE 团队最重要的课题。因此,我们首次的大版本更新选择了 《第四章 变更管理》进行展开讨论。

本次更新共计4万余字,首先厘清了变更管理与发布管理的关系,并以《SRE精英联盟》2024年4月13日在上海B站沙龙分享的案例为主体,新增了6个关于变更和发布管理的案例。这些案例涵盖了互联网、银行、运营商、证券等多个行业,具备行业代表性和领先性。

希望相关内容能对目前从事SRE 的工作同仁带来些许的启示,同时,我们也期待更多的行业专家和从业者能够参与到我们的讨论中来,共同推动SRE领域的发展和进步。

变更管理案例:4.3.1 ‘B站’变更防控的设计与实践

B站变更管控平台架构设计

SRE Elite收录点评

  • 利用了trace和CMDB资源拓扑信息,以关联和聚合应用服务的变更,能够追踪并识别变更对整个服务生态系统的潜在影响,有助于提高故障排查的效率和准确性。
  • 在企业内不同部门存在多套发布变更系统,且短期难以推倒统一重建的情况下,从变更防控的视角,补充建设防控平台,通过统一模型、熔断控制等方式,实现自动化的集中式变更管控。

变更管理案例:4.3.2携程云平台基础设施变更管理实践

SRE Elite收录点评

  • 这是一个由混合云SRE团队提供的案例,作为基础设施质量的把控者,对变更的计划性和标准作业流程要求严格,对于企业内私有云SRE管理团队有一定的参考价值。
  • 大量使用了 IaC 的方式, 对基础架构进行管理及变更,其中使用 SaltStack和StackStorm管理配置变更,使用Kustomize和Git Workflow管理多个集群和环境的基础组件配置文件,对公有云资源使用Terraform进行管理,实现了全栈IaC落地。

变更管理案例:4.3.3某银行变更管理设计与实践

某银行变更管理总体思路和设计

SER Elite收录点评:

  • 这是一个银行变更管理的案例,需要在符合监管的前提下保障可靠性,对风险控制达到了量化程度,定义了应用和基础设施等变更风险的评分模型和积分制度,再结合评审控制准入。
  • 该银行业务变更涉及多方企业人员关联,流程环节复杂,对变更管理所涉及的过程,设立了配套的组织架构闭环治理,例如变更自动化率、耗时、风险评估准确性、流程审批效率等。

发布管理案例: 4.4.1中移互联网敏捷发布平台建设实践

中移互联公司级统一应用敏捷发布平台

SRE Elite收录点评

  • “中移互联”这个名字就体现了传统行业与互联网的结合,传统IT模式与敏捷互联网业务间的矛盾,促使其从方向上选择了卸下历史包袱推倒零散的工具系统,一步到位建设一体化运维平台。并且对物理机、虚拟机、容器等不同类型的资源及上层应用设计了混合编排模式,为后续的综合算力调度做了储备。
  • 在一体化运维建设之后,为了追求更高的质量效率,中移互联SRE团队向研发服务左移,保障了测试环境及生产环境的发布一致性,并且承建了研发工具链,从运维一体化扩展至研运一体化。

发布管理案例: 4.4.2某证券变更一体化平台建设实践

某证券变更一体化平台

SRE Elite收录点评

  • 本证券案例的变更一体化平台建设目标是解决四种场景的变更统一:自研和外购应用的发布/变更一体化、传统和云原生应用的发布/变更一体化;测试与开发环境的发布/变更一体化;敏捷与安全的工程一体化。覆盖场景多,平台整合度高,规划参考性较强。

发布管理案例: 4.4.3游戏GitOps发布管理实践

SRE Elite收录点评

  • 这是一个典型的GitOps发布案例,对于互联网企业来说很常见,对于传统行业SRE具备一定的参考性,适用于流程和权限管控相对宽松而执行频率较高的测试环境、预发布环境、体验环境、低社会敏感应用的生产环境等。
  • 该案例描述了一个大型SRE团队全球化应用部署管理的场景,对不同细分职能的分工和协作模式做了阐述,对不同类型权限的操作者提供了差异化入口及审计方案,同时也兼顾到了不同使用习惯的开源组件集成,体现了鲜明的互联网风格。

以上均为各案例的收录点评,如需了解详情, 请查阅完整版本的《SRE 白皮书 1.0.3》对应章节。

以上案例分享的部分 PPT 和 分享视频,请在 上海 Meetup 活动页面 查看。

反馈和沟通

如果您有任何问题或建议,点这里提交联系我们

也欢迎使用 GitHub 的 issue & Discussions 功能来提交您的问题或讨论。

下载最新白皮书

版本:v1.0.3
下载