站点可靠性工程师(SRE)为什么那么重要?

2021-04-20 15:38:09 浏览数 (1)

目前越来越多的企业开始重视SRE,SRE 的实施具有明显的优势:平均修复时间(MTTR)和平均故障间隔时间(MTBF)减少、更快地交付产品更新和错误修复、降低由于自动化导致的人为错误风险、随着 Ops 任务的改进而不是消防工作量的减少,员工的倦怠、开发人员和 SRE 团队之间的工作一致,因为他们将共享相同的目标 、增强安全性和合规性、平衡的业务需求等。

在 SRE 的团队的有一些典型角色:

  • SRE 团队负责人。形成其他团队成员的工作范围;参与基础架构设计和工作流更新。
  • 系统架构师。负责构建透明,可复制和可扩展的基础架构,以确保服务的可靠性。
  • SRE基础架构工程师。具有50%的Dev任务和50%的Ops任务的人员,致力于解决当前问题以及计划和实施系统更新。
  • 发布经理。负责计划和执行代码发布以及回滚策略(如果需要)。
  • 监控工程师。一个负责监视四个“黄金信号”的人-延迟,饱和度,错误和流量。

IT 不断迎来变革和创新,成为站点可靠性工程师,了解SRE工作及专业是非常必要的在5月19-20日,在GOPS 2021 全球运维大会深圳站前夕, SRE(站点可靠性工程)Foundation 课程将正式开课!

该课程重点介绍了 SRE 的发展及其未来方向,并为参与者提供了实践,方法和工具,以使整个组织中的人们参与到可靠性和稳定性中,这些案例通过使用真实场景和案例来证明。完成课程后,学员将在回到公司后可以切实地利用诸如了解,设置和跟踪服务水平目标(SLO)的内容。

该课程使学习者能够成功完成 SRE Foundation 认证考试。

课程受众SRE Foundation 课程的目标受众是专业人员

任何对更高可靠性感兴趣的人

任何对现代IT领导力和组织变革方法感兴趣的人

SRE工程师

业务经理

商业利益相关者

顾问

DevOps从业者

IT主管

IT经理

IT团队负责人

产品负责人

Scrum大师

软件工程师

系统集成商

工具提供者

_

课程大纲

课程介绍

模块1:SRE原则和实践

  • 什么是站点可靠性工程?
  • SRE和DevOps:有什么区别?
  • SRE原则与惯例

模块2:服务水平目标和错误预算

  • 服务水平目标(SLO)
  • 错误预算
  • 错误预算政策

模块3:减轻苦工

  • 什么是苦工?
  • 为什么很辛苦?

模块4:监控和服务水平指示器

  • 服务水平指标(SLI)
  • 监控
  • 可观察性

模块5:SRE工具和自动化

  • 自动化定义
  • 自动化焦点
  • 自动化类型的层次结构
  • 安全自动化
  • 自动化工具

模块6:抗脆弱性和从失败中学习

  • 为什么要从失败中学习
  • 抗脆性的好处
  • 转移组织平衡

模块7:SRE的组织影响

  • 为什么组织采用SRE
  • SRE采用的模式
  • OnCall
  • 事后回顾与反思总结
  • SRE和规模

模块8:SRE、其他框架

  • SRE和其他框架
  • 未来
  • 其他信息来源
  • 考试准备
  • 考试要求,问题权重和术语表
  • 考试样题复习

课程目标

SRE Foundation 课程的学习目标包括对以下方面的实践与理解

  • SRE的历史及其在Google中的实践
  • SRE与DevOps和其他流行框架的相互关系
  • SRE背后的基本原则
  • 服务水平目标(SLO)及其用户关注点
  • 服务水平指标(SLI)和现代化的监控环境
  • 错误预算和相关的错误预算策略
  • 可观测性可以指示服务的运行状况
  • SRE工具,自动化技术和安全性的重要性
  • 抗脆弱性,我们的失败和失败测试方法
  • 引入SRE带来的组织影响

SRE Foundation 课程详细课程咨询:

0 人点赞