保驾护航,嘉为蓝鲸助力某科技公司AD域故障恢复实记

2022-12-01 11:25:40 浏览数 (1)

01. AD是什么?

AD是指微软Active Directory活动目录系统,作为目前市面上主流的活动目录产品,AD在许多企业内部承担着基础架构核心系统的角色,维护这套系统的正常运行是企业内部基础运维的重要课题,需要IT人员拥有齐备的技术文档、丰富的社区案例知识以及企业长年的运维服务实践经验。

嘉为长期深耕于AD领域,对AD的规划、建设、升级、运维管理、灾难恢复、故障处理等均有实践经验,建立起了理念、技术、方案和人才的丰富储备,能够实现AD在企业内部的从无到有,从有到优。

然而并非所有企业都能成功建立起了合适的AD运维模式,其运维人员也不得不面对一个个“伤筋动骨”的AD故障。

本文将通过讲述某科技公司,以非良性AD运维模式为诱因,AD域内所有域控均发生故障,必须进行林恢复的真实案例,与大家共同分享嘉为在AD领域的实践经验。

02. 案例背景

1)故事的起点——常规恢复手段失效

2022年6月13日,该企业IT管理员突然发现,在企业内部的无线网络无法正常认证连接,部分服务器的DNS无法解析域名。

在经过简单排查后发现,出现异常的客户端,其DNS服务器均指向主域控(指PDC角色所有者,这台主域控同时也是提供内部证书服务的CA服务器),随后IT管理员临时将DNS服务、应用LDAP连接从主域控迁移到同站点同机房的另一台域控制器上,同时临时取消了无线网络的认证规则。

暂时恢复业务后,IT管理员按照日常方式,重新搭建了域控制器,以此来替代旧服务器,但将新服务器升级为域控时却出现了新的报错,报错中提到新服务器无法加入域,同时DNS注册异常。

在将常规手段全部尝试了一遍无果后,管理员开始寻求外部协助。

03. 雷厉风行,嘉为迅速介入

1)故障初步排查——提供常见恢复方案

2022年6月15日晚,该企业管理员通过集团总部联系到嘉为服务团队,嘉为立即提供了远程支持,通过远程连接到AD域环境后,发现以下问题:

  • 主域控认证功能正常,但DNS服务异常,LDAP无法连接,可以通过AD远程管理工具访问目录数据。其他域控DNS服务正常,认证功能异常,LDAP可以连接,但无法通过AD远程管理工具访问目录数据,同时域控间已无法正常复制。
  • 主域控的DNS日志有4000、4007事件,此时DNS管理器无法加载DNS区域,提示“拒绝访问”:
  • 登录其他域控制器,发现SVSVOL共享丢失,使用以下命令确认DFS复制状态,提示出错(代号5):

经过上述检查后,嘉为技术人员以业务恢复为第一原则,做出以下判断:

  • 主域控DNS异常的原因是PDC丢失安全通道,需要重置主域控的计算机密码,在重置完成后DNS区域应能正常加载。
  • 修复主域控的安全通道后,需要对主域控执行DFSR复制的SYSVOL权威还原,对其他域控执行非权威还原,执行完成后其他域控的SYSVOL共享应恢复正常并发布为正常提供服务的域控制器。

在拥有良好的AD运维管理环境以及将可用AD备份的情况下,以上方案有利于故障的快速恢复,但随着嘉为团队对企业实际环境深入了解后,发现问题远比想象中的复杂。

2)尴尬而危险的平衡——更高的恢复要求

2022年6月16日凌晨,在提交初步解决方案后,嘉为技术团队与开始域IT管理员沟通实施细节,却发现远程实施该方案存在着以下不可预估的风险:

  • 没有健康AD的可用备份。
  • 无法对主域控制器执行重启操作,仅有主域控制器能提供认证服务,停机影响过大。

由于当前主要业务功能未受到很大影响,于是约定当日下午到企业现场进行故障处理。经过现场沟通,我们对其AD域故障事件的复杂性有了全面的认知:

① 恢复方案不能中断业务:主域控无法停机,任何涉及重启的修复操作不在考虑范围之内。

② 恢复方案受复杂环境影响大:AD域环境混乱,恢复方案需要排除的影响点过多,其中包括:

  1. 环境中域控制器版本横跨Windows Server 2008 R2到Windows Server 2019,且服务器没有定期进行补丁更新,DFS组件可能存在漏洞;
  2. 网络环境复杂,横跨多个机房,域控间应开启的网络策略并未全部放通,且域控制器皆为物理服务器,人员响应有时空上的困难;
  3. 各地域控制器由不同管理员管理,其上安装了各类服务,存在个别自行下线,元数据残留的域控制器。

③ 恢复方案的时间压力大:618期间,业务流量大,连续性要求高,当前仅一台域控制器提供认证,随时可能发生业务中断,必须尽快恢复。

既不能停机,又没有AD健康备份的保障,再加上参差不齐的服务器配置、复杂难捋的网络环境以及业务高峰的现实压力,此时这套AD系统,正处在一个尴尬而危险的平衡点,随时有可能绷断。

在对故障信息有了以上清晰的认知后,嘉为团队提出了一个新的解决方案,用过隔离辅助域控,进行林恢复。

3)新方案的制定——保障业务连续稳健恢复

2022年6月17日上午,嘉为团队再一次对企业AD域环境进行了深度调研,获取各个域控的基本信息、应用角色以及受损情况。

针对域控上的服务角色,如DHCP、DPS、CA等,分别制定了迁移方案,以此形成了服务器信息调研表、拓扑图,故障恢复流程、checklist、恢复备案等合一的AD环境故障恢复方案。

同时与企业AD管理员、网络管理员、应用管理员等几乎所有相关的IT管理员沟通,并组织了多次的方案讨论,最终确定了恢复方案。

服务器信息调研表

拓扑图

在最终确定的恢复方案中,高版本的辅助域控将作为恢复基点,在隔离环境中执行以下操作:

  • 夺取操作主机角色
  • 清理其他域控的元数据
  • 执行SVSVOL权威还原

确保林恢复完成后,再进行一系列的域控搭建、服务角色迁移、脱域计算机处理等操作:

4)新方案的执行——些许波折,成功执行

2022年6月18日晚。所有人到岗待命,开始执行恢复方案。

然而在准备隔离环境域控制器第一步时,就发生了令气压骤增的情况,原定计划需要使用生产环境的辅助域控进行裸机备份,再将裸机备份还原到隔离环境中,进行修复。

然而,企业整体环境中的虚拟化平台资源极少,大部分服务器均为物理机,在进行裸机备份还原的过程中,客户提供的虚拟机始终无法成功还原备份。

在经过2小时的尝试后,嘉为团队决定采用备份还原验证域生产服务器恢复并行的策略,即将备份提供给嘉为,让其使用其他可用环境还原验证,同时将一台生产环境的辅助域控制器进行隔离,进行恢复操作。

这样的决定,虽然稍微提高了对生产环境服务器的风险,但范围可以接受(限定在1台辅助域控制器)。终于在次日凌晨3点,成功在隔离环境中执行了林恢复,应用接入认证正常,常规域服务功能验证正常。

凌晨6点时,其他站点的辅助域控制器进行了替换,服务角色特逐步开始迁移,终于在员工上班前,所有角色完成了迁移并通过了功能验证。完成上述工作后,企业AD域的基本业务均已恢复,AD域的可用性得到保障,所有人都松了一口气。

04. 案例示警

针对上述AD域故障恢复案例,我们可以提供一些具体的建议或建设范畴:

  • 提高认知:AD是基础架构核心系统,明晰AD运维在企业内部的定位。
  • AD设计规范:使用什么版本的系统、开通哪些网络端口、何时增加域控、何时增加站点、对接入应用有什么要求等范畴,建议制定相关的规范,以确保AD域环境的规范。
  • 灾难恢复演练:做好AD备份,定期进行灾难恢复演练,更新灾难恢复文档,制定灾难恢复响应流程。
  • 建设AD域服务监控。

正如开头所说,AD是一套在许多企业内部落地的的基础架构系统,许多事件的参考信息可以很便捷地在网络上查阅,有关特定事件的处理、特定的功能实现也有齐备的文档参考,但这仅仅只能提高运维人员处理特定问题的能力,却无法在AD运维的整体逻辑上提供保障。

实际上,我们仍然会一遍又一遍的建议和帮助客户建立起适用于企业的AD运维管理规范,它们是围绕AD的操作文档、规章制度、流程管理、运维工具和一系列运维实践,是这些要素共同服务于企业IT管理理念的产物。对于AD而言,健壮的“体魄”,而非“药石”,能更好地避免“伤筋动骨”。

05. 嘉为AD运维服务

针对企业AD运维,嘉为团队提供全面一站式的技术服务,包括:AD及基础架构实施、AD域升级与架构优化、AD安全加固、AD HW服务等,助企业打造坚如磐石的IT系统,为企业信息系统保驾护航。

除此之外,嘉为还提供规划咨询服务、系统建设服务、二线专家服务、系统优化服务、IT运维整体外包服务、人员派驻等服务,企业可以根据需求自由组合选择使用的服务内容和范围。

06. 智能转型——WeOps一体化运维平台

针对该科技公司AD域故障事件,嘉为团队后续推荐了WeOps一体化运维平台,持续赋能,帮助企业运维逐步迈向智能化。

嘉为蓝鲸WeOps,是一款专注于保障企业业务连续性、支持国产化的一站式运维平台,以故障定位和全生命周期管理为核心,融合联动资源中心、健康扫描、监控告警、知识库、数字大屏及自动化运维工具等多项功能。

有关企业AD运维,WeOps平台可从预防和监控故障处理两方面保驾护航:

1)预防

WeOps平台可针对日常排查时发现的一系列隐患做到及时预防。案例中由于企业AD不规范导致系统存在没有备份、没有补丁安装、网络环境负载等隐患,而WeOPs平台可通过作业平台定时自动备份、通过补丁安装进行定期安装、通过平台进行网络设备的自动发现,生成拓扑完美解决上述问题。

2)监控故障处理

WeOps平台中的监控告警系统,可做到持续监控,智能告警,提前发现问题,降低业务影响,一旦发生故障,可通过拓扑图分析关联影响,同时结合资产管理分析资产影响情况,最后采用自动化工具快速解决故障,持续保障企业业务连续性。

嘉为蓝鲸WeOps平台满足国产化兼容,支持在国产环境下的一站式运维,自主可控,帮助用户解决工具功能单一、众多IT运维对象管理难、自动化程度低、信创生态产品兼容等问题,助力客户安全落地一站式运维场景。

0 人点赞