目前越来越多的企业开始重视SRE,SRE 的实施具有明显的优势:平均修复时间(MTTR)和平均故障间隔时间(MTBF)减少、更快地交付产品更新和错误修复、降低由于自动化导致的人为错误风险、随着 Ops 任务的改进而不是消防工作量的减少,员工的倦怠、开发人员和 SRE 团队之间的工作一致,因为他们将共享相同的目标 、增强安全性和合规性、平衡的业务需求等。
在 SRE 的团队的有一些典型角色:
- SRE 团队负责人。形成其他团队成员的工作范围;参与基础架构设计和工作流更新。
- 系统架构师。负责构建透明,可复制和可扩展的基础架构,以确保服务的可靠性。
- SRE基础架构工程师。具有50%的Dev任务和50%的Ops任务的人员,致力于解决当前问题以及计划和实施系统更新。
- 发布经理。负责计划和执行代码发布以及回滚策略(如果需要)。
- 监控工程师。一个负责监视四个“黄金信号”的人-延迟,饱和度,错误和流量。
IT 不断迎来变革和创新,成为站点可靠性工程师,了解SRE工作及专业是非常必要的在5月19-20日,在GOPS 2021 全球运维大会深圳站前夕, SRE(站点可靠性工程)Foundation 课程将正式开课!
该课程重点介绍了 SRE 的发展及其未来方向,并为参与者提供了实践,方法和工具,以使整个组织中的人们参与到可靠性和稳定性中,这些案例通过使用真实场景和案例来证明。完成课程后,学员将在回到公司后可以切实地利用诸如了解,设置和跟踪服务水平目标(SLO)的内容。
该课程使学习者能够成功完成 SRE Foundation 认证考试。
课程受众SRE Foundation 课程的目标受众是专业人员 | |||
---|---|---|---|
任何对更高可靠性感兴趣的人 | 任何对现代IT领导力和组织变革方法感兴趣的人 | SRE工程师 | 业务经理 |
商业利益相关者 | 顾问 | DevOps从业者 | IT主管 |
IT经理 | IT团队负责人 | 产品负责人 | Scrum大师 |
软件工程师 | 系统集成商 | 工具提供者 | _ |
课程大纲
课程介绍
模块1:SRE原则和实践
- 什么是站点可靠性工程?
- SRE和DevOps:有什么区别?
- SRE原则与惯例
模块2:服务水平目标和错误预算
- 服务水平目标(SLO)
- 错误预算
- 错误预算政策
模块3:减轻苦工
- 什么是苦工?
- 为什么很辛苦?
模块4:监控和服务水平指示器
- 服务水平指标(SLI)
- 监控
- 可观察性
模块5:SRE工具和自动化
- 自动化定义
- 自动化焦点
- 自动化类型的层次结构
- 安全自动化
- 自动化工具
模块6:抗脆弱性和从失败中学习
- 为什么要从失败中学习
- 抗脆性的好处
- 转移组织平衡
模块7:SRE的组织影响
- 为什么组织采用SRE
- SRE采用的模式
- OnCall
- 事后回顾与反思总结
- SRE和规模
模块8:SRE、其他框架
- SRE和其他框架
- 未来
- 其他信息来源
- 考试准备
- 考试要求,问题权重和术语表
- 考试样题复习
课程目标
SRE Foundation 课程的学习目标包括对以下方面的实践与理解:
- SRE的历史及其在Google中的实践
- SRE与DevOps和其他流行框架的相互关系
- SRE背后的基本原则
- 服务水平目标(SLO)及其用户关注点
- 服务水平指标(SLI)和现代化的监控环境
- 错误预算和相关的错误预算策略
- 可观测性可以指示服务的运行状况
- SRE工具,自动化技术和安全性的重要性
- 抗脆弱性,我们的失败和失败测试方法
- 引入SRE带来的组织影响
SRE Foundation 课程详细课程咨询: