基础设施云化率已达60%:海尔集团IT架构演进与云化改造的探索实践

2021-09-22 10:58:14 浏览数 (1)

作者 | 蔡芳芳

近几年,数字化转型已经成为所有传统企业的必选项,而不再仅仅是一个可选项。据清华大学全球产业研究院发布的《中国企业数字化转型研究报告》,2020 年企业数字化转型整体成熟度进一步提升,尤其国内传统企业的数字化转型已经从部分行业头部企业的选择性发展,转变为更多行业、更多企业的发展必经之路。而海尔集团在信息化、数字化方面的思考和实践一直走在国内企业的前列。

海尔集团在数字时代的转型,是自我颠覆式的全系统重组,是一场直达终端用户体验的广义“再造”,而 IT 平台在这个过程中起到了核心引擎的作用。本文,InfoQ 采访了海尔集团 IT 的数位嘉宾,以期了解这家多元化企业数字化转型和云化改造背后的故事。正处在数字化转型进程中的海尔集团,其 IT 基础设施架构是如何设计和演进的?基础设施云化改造如何推进?面对庞大的业务体系和多变的业务需求,IT 平台怎么做好支撑?转型过程中有怎样的思考和经验总结?本文将一一解答。(本文节选自《中国顶尖技术团队访谈录》2021 年第四季)

采访嘉宾:

刘超 海尔集团 CTO

郭乾继 海尔集团 IT 平台 基础中心总监

陈合 海尔集团 IT 平台 技术中心总监

李晓文 海尔集团 IT 平台 安全中心总监

1 “数字化重生”进行时

InfoQ:海尔集团开始数字化转型的契机是什么?简单介绍下海尔数字化转型的背景?

刘超:当前,整个行业和用户的需求发生了很大变化,用户更看重的是企业能不能快速响应不断变化的用户需求,给用户更好的体验。在这样的大环境下,海尔这两年以数字化转型为契机,让海尔从传统制造业为主的跨国企业转型成为全球物联网生态品牌企业,更好地满足全球不同用户体验需求。

我们能够看到整个社会正在由传统工业化时代向数字化时代迈进,海尔传统工厂规模化制造出的产品已无法适应市场的新需求,可能生产出来就变成库存。数字化时代,规模化定制正在成为现实,比如目前我们的海尔互联工厂应运而生。首先,我们要把从设计研发、生产制造、配送安装、营销服务等各个环节要素打通并连接,同时动态地将客户的需求和生产要素进行匹配,企业的管理人员能够实时知道订单在什么环节,下一步要去哪里,这个订单来自什么用户,这个用户是新客人还是第二次购买;同时企业内部的人员可以在这个数字化平台上看到个性化数据报告,比如产线制造的哪个产品卖得更好,我们的生产工艺需要再进行什么优化等等。在这个过程中海尔通过人单合一商业模式的创新为数字化指引了清晰的方向。

InfoQ:您对数字化以及数字化转型的理解是什么?

刘超:我理解的数字化是能够帮助用户愿意和海尔做生意,用户愿意体验和使用海尔的产品和场景服务,这个过程是更快捷、更安全和更愉悦的。我们的用户获得成功是我们企业存在价值的前提,在这个过程中我们和用户之间实现双赢。而数字化转型可以帮助我们提升用户体验,让用户在接触海尔场景的时时刻刻都能有良好的体验。

数字化转型主要要解决三个维度的问题:一是找到用户,做到以用户体验为中心,当然对我们大型企业来说各个环节上的用户非常多,我们优先满足为企业直接创造价值的一线用户的需求,不仅仅是系统页面简洁和流畅,而且要能帮助我们的用户成长;二是聚焦业务场景,确保我们的数字化转型没有偏离业务目标,让业务朝着设定的目标加速迈进,这个过程中要让我们的业务和运营人员全程参与进来,大家组成链群,共同让海尔各个板块的业务利润得到迅速提升;三是打造平台,沉淀海尔自己的能力,我们打造的这个平台不仅要具备通用的能力,而且要让业务参与进来,共同打造一个有生命力的数字化平台,这个平台应该是动态的,能够随着市场变化而调整服务,共同支撑海尔集团的黑海战略。

InfoQ:您认为 IT 在海尔数字化转型过程中的价值贡献是什么?

刘超:IT 在企业中的角色向来都是成本中心,由传统意义的成本中心向价值中心去转变,最大的验证标志还是反映在业务主干流上的价值指标变化。而围绕 IT 价值创造这个核心,集团 IT 主要基于“SAFE”体系展开数字化能力建设与目标的验证。

“SAFE”目标体系,拆解开来就是集团 IT 数字化转型的五个目标和方向,分别是:体验、效率、成本、质量和安全。

  • 体验(Smooth),即给用户带来顺滑自然的体验,保证让用户专注于业务。
  • 效率(Agile),即提供敏捷灵活的支撑,保证让业务专注于目标。
  • 成本(Fused),即兼容并蓄的体系,保证让实现专注于逻辑。
  • 质量(Effective),即高效高质的实现,保证让产品专注于价值。
  • 安全(SAFE),保证自始至终的安全。

海尔集团 IT 通过建设以“SAFE”为核心目标的数字化转型支撑体系,统一目标,强化与用户的链接与融合,逐步形成技术驱动型的链群组织,保证人人参与数字化转型、人人专注价值创造。

InfoQ:在数字化转型过程中,不同业务线遇到的痛点和需求各有不同,而且面对越来越多变的业务需求,集团 IT 平台怎么做到快速满足?

刘超:海尔在数字时代的转型,是自我颠覆式的全系统重组,是一场成功直达终端用户体验的广义“再造”。也正是因为海尔正在进行的数字化重构、数字化重生,促使每个业务单元进行根本性变革,而 IT 在里面正是起到核心引擎的作用。

为了支撑产业的数字化变革和灵活多变的商业模式探索,集团 IT 建立整个数字化支撑体系,以“文化、方法论、架构、能力、组织、流程制度”为核心的数字化重生六基石,统一体系内的沟通、基础、运作。在这个基础之上,我们着力数字化技术能力、业务数字化能力、敏捷交付能力三条数字化能力线的建设,通过两大工具体系实现对外的服务赋能:其一是通过业务数字化能力提供敏捷交付能力,服务业务人员;其二是通过一站式整合敏捷交付能力与数字化技术能力服务各领域 IT。其中,以快捷应用 SaaS 为代表的敏捷交付体系,正是为了满足灵活快速地支撑产业探索阶段需求而诞生的数字化工具。

而从整体的 IT 开发模式的支撑来看,我们创新“面向业务体系的开发模式”,这是 IT 领域为了更好地适应和支撑企业发展不同阶段而诞生的数字化能力体系,而我们也是通过快捷应用 SaaS 体系将四个阶段的开发模式完全贯穿,结合不同企业阶段的不同特性和对 IT 能力的需求,匹配不同的支撑体系,助力集团不同类型不同规模产业的快速迭代和探索发展。

2 海尔 IT 架构布局和演进思路

InfoQ:海尔 IT 基础架构演进的思路是怎样的?

陈合:随着技术的发展和积累,技术的垂直领域越来越多,且每个垂直技术领域内的深度也越来越深。整个行业的 IT 演进整体趋势是在向无边界应用时代迈进,海尔 IT 基础架构依托行业趋势演变出了海尔特色演进思路,即从信息化、EAI 时代,到云原生时代,到最终的无边界应用时代。真正的无边界时代是能够打破应用运行边界,连接并打通应用功能,实现顺滑自然的体验。海尔一直在探索和实践如何实现无边界,希望可以真正跨入一个新的时代。

InfoQ:可以简单介绍下海尔 IT 基础架构的布局吗?

陈合:目前行业大部分企业 IT 系统主要以传统的烟囱式为主,无法响应业务快速变化的需求。海尔依托数字化转型战略,结合竖井式系统现状,采用三台架构的模式布局,通过构建 15 大核心科技能力布局前中后台,明确 IT、业务边界,共建实现“稳后台 连中台 活前台”转型,同时通过自主构建去形成海尔独特的数字化核心竞争力。

InfoQ:海尔集团内部业务线非常多,IT 基础架构如何在快速满足业务需求的同时又能保持系统的稳定性?

陈合:海尔集团整体业务体量巨大,内部业务线非常多,人员构成复杂,而当前 IT 设施的重要性就要求我们必须保证系统的稳定性。系统稳定涉及范围非常广,我们大致总结了 4 个方面:①架构设计和代码实现;②开发和运维管理流程;③所有人员的线上意识;④项目质量管理。海尔在这 4 个方面都有比较完备的保障体系。由于时间原因,今天只分享在架构设计上海尔比较有特色的两个点。

第一点是无缺陷的设计模式:为了保障系统整体稳定性,我们设计了一套无缺陷的设计模式。这不是说系统完全没有 bug,而是当不管遇到任何已知问题和未知问题的时候,系统在能力输出上都是无缺陷的,能够提供完整的业务能力。为了实现这个目标,我们通过设计让系统在分层、分级、分节点上实现自动感知、自动分析、自动处理,最终把一个系统从开环状态变成自闭环状态。大致过程如下:

这个模式在 IaaS 层和 PaaS 层的实现相对比较容易理解,所以我以 Nginx 来举一个简单的例子:感知引擎实时感知 Nginx 流量情况,分析引擎根据感知引擎的结果发现当前流量已经超过设定的水位阈值,即交给处理引擎进行扩容处理,从任何用户的角度看系统依然能够完整提供能力。要实现整个设计最重要的点在于关注能力的输出,而不要陷入里面的具体细节。根据这个原则,海尔在能力感知、能力分析、能力处理上形成了一套完善的体系方案。传统的自愈能力都只考虑到在 IaaS 和 PaaS,而我们还深化到 SaaS 和 BaaS 层上。最终在横向业务场景、纵向架构层级上,立体地实现了无缺陷设计。

第二点是向上统一:除了无缺陷设计外,另一个有特色的是向上统一。业界都在提数字化转型过程中必须实现“高速路上换轮胎”,而“高速路上换轮胎”是最容易出稳定性问题的,这里就分享一个“高速路上换轮胎”的架构设计。近段时间我们在做账号统一的工作,由于历史原因,海尔内部存在多个账号中心,如果直接建立一个账号中心替换其他账号中心,在实施上涉及多个应用的调整和多套系统数据的迁移等,极容易出现问题。为此我们提出了一种叫向上统一的设计模式,新建一套账号中心只做登录认证。新账号中心作为其他账号体系向上的统一层,和多套旧账号体系实现数据互通,业务系统和新账号中心对接,使用户流量逐渐汇聚到新账号中心。在实现全产业拉通后,通过治理再把老的业务能力逐渐沉淀到新的账号中心里,这样业务和数据都能平滑过渡,实现“高速公路上换轮胎”。另外,在这种设计模式下,前期账号中心业务单一,实施简单、风险可控,技术架构和代码质量能够比较容易得到保证,从而提升了系统的稳定性。另外由于只做登录和认证,不做用户中心,不入侵老旧业务,实施快,推行起来阻力也比较小。

InfoQ:我们了解到,自主可控是海尔 IT 数字能力建设的一大方向,从依赖外部到实现自主可控,技术上做了哪些努力?

陈合:海尔 IT 数字能力建设的重要目标肯定是要实现能力自主可控。我们首先规范架构指导,制定并发布集团级架构标准,为海尔架构夯实底座,并以《海尔集团 IT 架构白皮书》为架构评审依据统一架构规范,赋能全集团架构回正;其次,我们自主构建了 15 大科技能力,涉及权限、账号、数据、集成等,完全自研自开发;最后针对科技能力进行专利布局,目前已经申请完成科技专利三十多个。总结下来,主要就是通过标准规范、自建能力、专利保护三个方面来推动实现海尔数字化能力的自主可控。

InfoQ:未来海尔 IT 技术与架构的发展方向是什么?

陈合:毫无疑问,海尔 IT 未来的发展还是要紧紧围绕数字化、自主可控、核心能力等几个方面建设,通过构建具有海尔特色的架构模式,支撑集团黑海战略,同时依托 IT 行业演进趋势,构建账号等六大统一,推动无边界应用早日实现。

3 为什么要做基础设施云化改造?如何推进?

InfoQ:海尔为什么要做基础设施云化?

郭乾继:数字化转型的大背景下,系统结构发生裂变,业务切分得越来越细,相应的复杂度也呈几何倍数增加,已经超出了人力所能管理的限度。传统架构基础设施面临以下几个痛点:私有云或托管运维投入巨大,多厂家运维,端到端 SLA 无法保证;IT 技术发展迅速(容器、大数据、EI、区块链),传统私有云不能灵活快速演进。在这种变化下,需要有更加稳定和敏捷的基础设施平台来支撑业务的高速发展,为业务创新提供坚实的技术底座。同时,基础设施云化可以更合理地使用好资源,比如实现更高的资源使用率、更好的高可用性设计、更灵活的交付方式以及成本节约。

InfoQ:能否介绍下海尔基础设施云化改造的整个历程?分为哪几个阶段?关键阶段遇到的难点和挑战是什么?

郭乾继:云化改造和项目方式没有什么太大的区别,唯一不同就是云化是一个没有终点的过程,总结下来主要就是建和改。海尔云化架构采用了两地三中心混合部署的模式,对公有云、专属云、私有云做了不同的场景定位,综合考虑用户体验、信息安全、成本及国家法律法规的要求,来确定业务应该部署到哪朵云、是分布式部署还是部署到单云。改的过程中确实存在一些难点,新业务基本上采用容器云,有挑战的主要是一些老旧系统需要做一些云的适配和改造。我们的解决思路是利用“绞杀模式”,过渡期间暂时采用提供云主机的方式来云化,随着系统完成微服务改造后,再最终容器化。另外,还有一些系统例如 SAP 系统短期内是无法进行云化改造的,就必须制定长期解耦的计划,这也是挺难的一件事。

InfoQ:根据资料,目前海尔 IT 基础设施云化率已经达到了 60%,能具体讲下云化前后的变化吗?

郭乾继:云化带来变化还是非常大的,目前交付时间基本上可以做到分钟级,成本可以节省 20% 以上;借助云化技术,故障发生时系统可以做出自动漂移,用户基本上没有感觉,可用性可以达到 99.98% 以上。很多以前需要从零开始部署的过程都可以简化为自动交付,大大减少了管理系统的工作量,解放了这些以前不创造价值的工作时间,团队也有了更多的时间参与创新性工作,例如向智能运维方向转型。

InfoQ:目前海尔 IT 基础架构中是公有云和私有云共存吗?你们如何做好混合云的管理?

郭乾继:是的。对于混合云的管理主要有两个层面:管和用,其中如何用好混合云更有意义

管,我们有自研的混合云平台,现在正逐步演变成一站式赋能平台,通过打通公有云和私有云资源,夯实云原生底座,整合了基础平台服务能力和开发平台服务能力。其中基础平台服务能力包括容器运行环境、CICD、高可用等,开发平台服务能力则包括消息队列、缓存、配置中心、注册中心等。由于事先根据业务场景建立了资源配置库,业务人员可以根据场景描述快速选择配置类型,实现定义好的应用架构部署模式,即自动化交付,提升 IT 交付效率,改善用户申请和使用 IT 资源的复杂度,实现一站式服务体验;运行期间则交给感知网。

感知网是我们利用开源技术打造的一套全栈全链路自主可控的监控工具,实现了集团原有商业软件的替代。它可以帮助管理人员图示化地看到整个系统的运行情况,同时,这个平台也自动连接了我们的运维流程,可以把人、系统结合起来,出了问题,如果系统无法自愈,就会自动通知到相关的负责人来做闭环处理。利用感知网可以实现从底层硬件、操作系统、数据库、中间件,到应用 Web 服务器的实时运行状态监测,达成秒级告警和故障定位,帮助我们掌控 IT 运行状态。感知网上线后,成功支撑了日日顺物流 618、双十一等重大促销活动。

4 物联网生态模式下的安全保障体系构建

InfoQ:海尔集团数字化转型带给安全什么样的机遇和挑战?

李晓文:随着海尔集团 IT 架构不断演进,云化改造和数字化转型也在加速推进,安全的边界在互联世界里逐渐消退,攻击面也随之扩大,数字化业务将面临更多的安全风险,因此安全保障需要以更快的速度来适配业务的数字化能力,引进新思路、新框架、新技术、新模型帮助数字化生态系统在快速安全构建的同时,更加稳健、有序,以打造数字化业务的韧性。

InfoQ:海尔物联网生态模式下,如何更好地构建安全保障和能力?

李晓文:桥梁越大内部结构越重要。在海尔物联网生态模式下,安全团队需要一套与数字化业务能力相适配的打法,以构建全方位内生安全保障体系。主要包括以下几个层面:

  • 风险管理:网络安全的本质是风险管理,需要基于大数据分析来实现,在海尔的生态体系下,我们基于 Cyber Security Mesh 风险管理思路,快速敏捷地评估业务中的风险,构建了动态感知和洞察风险的可视化管理能力;
  • 将安全文化提升至业务决策层面:在业务决策时,将网络安全作为一个业务问题而非技术问题,在数字化业务案例预研之时嵌入安全属性,将风险的处置能力左移至业务侧,在数字化过程中,确保安全能力被评估、识别和适配,使得安全投入有最佳的产出比;
  • 采取主动防御措施对抗攻击者:数字化转型的过程中,由于 IT 架构持续演进,基于新的 IT 架构,安全在容器、主机、网络、应用层面的基础能力需持续延伸和夯实;与此同时,需要构建先进的“雷达”能力,通过内部部署的 Sensor 收集并识别潜在威胁,以人工 自动化的方式确保拥有最新情报,通过增强 SOC 的大数据分析能力,积极防范和对抗更广泛的攻击者,并通过对重要资产主动进行持续的威胁监控,安全团队的“狩猎”团队能够转移攻击者对有价值的资产的攻击,具备能力在内部网络中与“敌人”过招;
  • 安全的交付能力:在安全能力建设过程中,夯实基础,沉淀安全的各项能力,打造高弹性组件化的安全一体化体系和能力,将安全的能力以组件化的方式快速交付至海尔不同的业务生态圈,适配不同业务的安全保障需求;
  • 建立多方位的生态系统:新冠肺炎疫情推动数字化加速转型,网络安全不再是安全产品简单的实施和叠加,全球网络互联互通,某一个组织或者企业亦无法独善其身,需要携手供应商、客户、技术供应商、监管机构、标准机构和行业协会共建,打造立体式主动防御的生态体系。

0 人点赞