编者荐语:
怎样的团队,可以将原来5-10年的项目,仅仅花三年就完成。一起走进TCE客户民生保险探索出来的数字化转型路径。
以下文章来源于InfoQ ,收录于合集:卓越技术团队访谈录
作者 | Tina
采访嘉宾 | 沈勇毅、孔伟、苏彦春
作为传统 IT 铁三角的核心腹地,金融行业过去十年的“去 IOE”运动备受关注。这种在过去 30 年中被广泛使用的集中式架构逐渐难以适应金融业务的线上化、数字化、智能化需求,正在逐渐被替换。因为需要修改底层技术,涉及到很多代码的重写、技术架构的重组和迁移,去 IOE 基本上是一种“小步慢走”的过程,本身就是 5-10 年的工作。
金融行业的变革从银行开始,逐渐带动了保险行业。这几年保险行业的数字化转型走得特别快,一众头部保险公司都在自我改革以适应时代的改变。
金融企业的数字化转型,通常是规划长远、实施复杂的项目,需要有懂技术、有大型项目经验的人,做出既稳妥又大胆的决策,而一般的企业不可能无限制在技术上进行投入,那么在投入有限、人才缺乏、技术实力储备不足等刚性约束条件下,转型之路究竟该怎么走?绝大多数机构并没有清晰的答案。
作为一家中型金融机构,民生人寿保险也曾面临上述困难。2019 年的时候,民生开启了一场快节奏、深层次的数字化转型,将用了近二十年的架构,一举搬上了混合云架构上。原来需要 5-10 年时间的项目,也只花了 3 年就宣告完成。民生保险探索出来的这条数字化转型路径,或许也能给亟需变革的其他中小型企业带来一点启发。
1 重构核心系统,一次性到位进行转型
在 1955 年首届财富 500 强名单中,只有 12.2% 的公司在 2014 年仍然保持在该位置。虽然一些下滑是因为品牌重塑或并购,但其中大部分反映了许多曾经的大牌未能在现代社会中生存下来的事实。在技术不断进步的环境中,未以正确的方式接受变革并进行创新,这些衰亡的企业是带有警示意义的例子。
一般企业都是循序渐进的发展,但是新技术的革新,让企业的 IT 环境可能进行革命性的变化,没有壮士断腕的决心,可能真的无法适应业务的发展而被淘汰。
一边是当前企业都有变革的压力,另一边是金融企业里的特殊现状。
金融行业有自己的特性,使用的是一些成熟的技术或者在其它领域已经应用多年的技术。而现在,数字化转型普遍是将已有互联网的技术、流程、实践置于服务的构思和交付方式的核心。这也就是说,彻底、全面的转型意味着“不破不立”。
民生人寿保险面临的状况也是如此。在 2003 年成立的时候,受制于当时的技术环境,民生人寿保险采用了传统的 IOE 架构,以及单体应用。技术架构的层面发展到现在,已经变得陈旧,应用之间的耦合度也非常高,很难去适应现在快速业务的变化。
在过去二十年的时间里,民生保险在集中化的 Oracle 数据库中积累了大量数据,但各方面的指标口径没有进行统一,数据也缺少标准治理。
民生保险的转型目标是,用“民生保险”公众号和官网将 90% 常用的业务实现线上处理、用“掌上民生”实现保单销售全流程线上化,通过引入人工智能实现运营服务的自动化,打造了“业务中台”和“数据中台”双中台模式,以支撑公司转向以客户为中心的经营模式。
图源:https://m.gelonghui.com/p/525770
2 技术选型是项目中最大的风险点
寿险行业的数字化转型在此之前并没有成熟的案例。
作为求稳的金融企业之一,民生保险没有在老系统上进行“修修补补”,而是进行彻底变革。民生新一代的 IT 建设分为两大部分,一部分是建设新一代的业务核心系统,另一部分是重建技术架构。
在基础架构选型的时候,民生保险探索过多种路径,包括超融合,自己搭建 Kubernetes 集群支撑应用,基于 MySQL、PostgreSQL、CDH 用开源搭建大数据平台,但考虑到使用的效果和维护的成本,最终还是放弃了完全使用开源的实现方式。
原来使用的 Oracle 产品有自己的特色,能同时适用于交易场景和分析场景,所以在这一块儿上并没有一个对等的可取代它的软件。
现在,互联网的实现思路是将交易型的数据库和分析型的数据库拆解开来,再加上大数据平台去做海量数据的建模或者计算能力的支撑。基于此,民生选择了分布式数据库 TDSQL、TBase 等来替换掉 Oracle。
同时考虑到新一代的业务架构是基于分布式 Kubernetes 集群,适应未来 5 到 10 年的发展变化,核心应用比较倡导微服务网格化和基于云的研发应用一体化的模式,所以底层基础架构一开始定位为公有云服务。
但在把主流国内云厂商看了一遍之后,从数据资产的私有化来考虑,发现公有云的方式不完全满足现在金融行业的需求,于是民生保险跟腾讯深度合作,为大部分的数据和核心应用建立了一个私有云,再用公有云承载对外流量,以及实现活动场景下的弹性扩展预留。
新一代业务系统和新一代云数据中心都是采用的最新的技术,跨度很大,选择新技术也意味着接受挑战。针对复杂的技术和业务场景面临很多未知的情况,前期在做第一轮试验性“掌上民生”App 产品时候,怎么运行,怎么快速解决技术上的问题,没有一个可以用来参考的标准,还需要充分融合整个应用架构和云平台 PaaS 的能力,来寻找一个最佳的均衡点,所以这个项目中最大的风险也是来自于初期。
整体的架构设计和探索“花了大概 5、6 个月的时间才能定下来”,民生保险数据服务部副总沈勇毅表示,这也是整个项目开头最难的一个点。
“采用新技术总会有一定的风险,作为吃螃蟹的人,总归是要慢慢摸索”,沈勇毅介绍说。但经过了半年的并行期以后后面就很顺了,因为已经很清晰地知道自己的技术路线怎么走,业务转型的时候要考虑哪些问题,就相对来说按部就班地去做,只是看时间到底拉的多长。
传统金融机构的技术架构升级有着复杂的步骤,比如先建立一个数据中心,再建立第二个数据中心,逐步考虑兼容,是一个 5 到 10 年长远的发展过程。民生保险的数字化转型从 2019 年启动,采用比较先进的混合云基础架构和云原生的业务架构,一步到位地实现了两地三中心、同城双活、灾备,到投产上线、存量迁移,总共只花费 3 年时间,创造了一个行业里少见的案例。
3 技术投入要讲究一个“均衡点”
CXO 控制着整个项目的风险系数。
在企业的转型过程中,技术只是一个应用,任何改变,如果没有考量到“人”的因素,必然无法达到真正的转型。
人的因素可以分为两个部分。
一方面是面向“消费者”。数字化转型的根本起源是“业务诉求”。因为人口众多,所以各行业都大量增加了线上业务,进行深加工,所以底层的数字化转型它其实不是一个技术层面的推动,它是一个业务层面的推动,是出于业务的需要。
民生保险在转型是将视频、图章、监管、报送等等这些系统业务进行线上化,线上业务还需要有数据的二次加工和分析。在具体业务场景上,推动业务层面去使用“新技术”,改变业务模式、运营模式、服务体系,这些都是面向消费者的事情。
另一方面,“组织内部的人”更是转型的成败关键。
技术和产品的问题总能够去解决,引入新技术不是最难的事情,这可以通过引入比如腾讯这样的云服务商作为合适的合作伙伴,借助于各行各业的经验支撑技术的转型。而业务上的问题,主要靠组织和管理层面。“一把手”董事长的决心和战略决定了“转型”的基调,然后管理层才能从公司层面明确建设目标,制定规划,内部各部门的协调和合作,从顶层向下推动整个公司转型。
在数字化转型中,CTO 或 CIO 也起着比较决定性的作用。一方面,作为“总设计师”,他需要根据企业的实际情况来去选择一个最佳的路径。
数字化转型的路径不止一种,基础好一点的可能循序渐进,每年可能动一点点,但是它的代价可能是花费的时间会很长很长。之前的基础差一点的,在技术大的变革时代,可能采取相对大胆激进的策略,能够在比较短的时间内能实现弯道超车,达到既定的目标,但是可能执行起来的整体风险也会比较高。一步到位还是逐步迭代,这些需要 CTO 或者 CIO 来做决策和选型。
“CTO 控制整个项目的风险系数,在不同的阶段去调整不同的风险”,作为民生保险信息化服务部门负责人,沈勇毅的角色也相当于 CTO 或者 CIO。另一方面,CTO 还需要靠确定整个组织架构,构建符合数字化的新的人才和体系。“民生这个项目的周期跨度 3 年,这也是我们有史以来最长的一个项目。参与的人数也很多,就我们自己民生和各个厂商的参与人数基本上全部加起来高峰的时候有 400-500 号人。”
在多厂商的管理上,合作能力的配合上,实施能力的管理上,包括民生自己内部多部门的管理和协调上,其实都有一些挑战。另外是人员能力,涉及到很多新技术引入,虽然很多新技术在互联网行业已经成熟,但对民生这样的一个金融企业来说,这个技术却是全新的。对民生保险来说,项目的实施需要很多懂技术,又有很多有大型项目经验的人员去推动。而且项目实施之后,技术怎么去沉淀,怎么去传承,怎么去保证确保所有的技术迭代和稳定的运转,这都是需要想办法解决的问题。这也是大多数转型中的中小企业需要面对的问题:作为一个甲方企业,不能无限制的在技术上去投入。
沈勇毅表示技术人员的投入也要讲究一个“均衡点”,民生的办法是借助于腾讯这样的厂商来接一部分基础云平台的部署和持续运维问题,同时也要清楚双方边界。但在应用层面还是要做到自主可控,培养自己的技术队伍。民生已经有专门的技术架构的团队,也是为了适应整个云的变化,近几年重构了这个团队,从原有的 IOE 的模式直接进行了转型,更多地去实现管理的职能或职责,做好资源分配和运用。
4 切割二十年的老系统
民生保险混合云有着自己的模式,基于国产自主生态的私有云、公有云、信创云混合的新一代基础设施。
民生将内部区域划分为几个大功能区,公有云更多是服务一些外网的业务,比如官微、官网、掌上民生。在项目实施过程中,开箱即用的公有云还承担着一个比较大的作用,就是在紧急的时候充当测试环境,毕竟私有云的搭建还包括购买服务器和网络等。
办公和核心放在了私有云上,这也是比较传统一些的 IT 交付模式。私有云基于腾讯云专有云全栈解决方案 TCE (Tencent Cloud Enterprise)打造,包括 70% 节点基于通用 x86 架构的私有云和 30% 节点基于全国产芯片为基础的私有云。腾讯专有云和公有云由同源同构的一套代码实现而来。腾讯专有云在金融行业落地时,还在网络、硬件、服务、网络安全、防护上,针对金融用户的属性做了深度定制。
作为腾讯云金融的主打技术产品之一,TCE 最早的实践案例可以追溯至微众银行,逐步扩展到交通、工业制造、传媒、零售、政府、泛互联网等行业,打造了建设银行、深证通、中国银联、永辉零售云、央视频等多个行业标杆。据腾讯介绍,TCE 本身历经数十次版本迭代,增强的功能和特性超过 500 项,涉及代码数百万行,也有完整的交付管理流程和自动化工具,从需求调研包括高低阶方案的设计,到基础设施包括云平台的实施,以及数据跟业务的投产迁移。
民生保险于今年 5 月 1 号开始切割,当时处于疫情全封闭的状态,数百名项目参与人员居家隔离,实现远程 “云上线”。关键线上业务还挺多,需要去做一些协同和管理。“大家都是各自在家里,去做了一个这么大的切换。这还是挺厉害的”,沈勇毅感慨。
项目切换过程中,大家的工作有一个“完整的清单”,每一个任务由谁负责,大家都要清楚自己在做什么,明白自己执行到了哪一个步骤,都需要非常明确和细致。在各个组织结构上分得很清楚,由“总控”去整体把控,底下有各个执行组、指令组,各个平台的支撑组、支持组,还有各模块的用户验证组,以及腾讯也有一支支持队伍,大家不断地相互之间去协调和通信,经历一个月的多轮预演,最后正式切换。
难度和风险最大的有两个,第一个技术选型,在第一次引入新技术试错的时候,第二个是最后一次性切割的时候。
“按照我们现在整个策略,迁移过程当中绝对不大会有一次性迁掉的那种模式,但是就算分阶段,分步骤慢慢去切割,到最后也有一次整个的最后切割。就像 5 月份‘云切割’就是最终的一个版本,最终的一个全量的扫尾切割。失败的可能性最大的就是存量扫尾切割这一块。”
“因为所有的历史的问题,历史的债,肯定需要在那个点上做一个切割和梳理。我们也是一个快 20 年的一个公司,那么积累的历史问题不会少。其实在最后一次迁移过程中,我们还是遇到了一些不一定需要临时去解决的问题,这些问题我们会放到后面慢慢再梳理。”
减少风险的办法,就是“最后一次切割之前,一定要把风险看得清楚,把问题理得清楚,再去做这件事情。”
如今,“新一代”的业务系统已经稳定运行数月,各方面能力得到了明显提升,也曾在切割之后支撑了民生有史以来并发量最高的一个业务节点。另外,云平台成本提供同样的计算资源的情况下,要比原来至少节省一半以上的成本。且从安全性上来说,应对一些重保也是会比原来要好很多。
5 写在最后
数字化发展和数字化转型已成为全球多个国家的战略。
可以说企业进行数字化转型不是可选项,而是必答题。企业数字化转型的动力也是现实的:在疫情时代,数字化协同能让企业能够去高效地运转下去;线上化和新渠道上的用户运营是企业活下去的关键动力;新技术能够更加地降本增效,提升服务体验。
民生保险的弹性、稳定的云原生方案,也是保险企业转型的一个典型样本。对比国内外保险行业,沈勇毅认为,无论是全球还是亚洲的同类企业,虽然他们在业务逻辑设计和敏捷方法论上更为先进,但国内企业借助敏捷加上分布式交付,以及云厂商的成熟运转模式,在引入新技术的速度上比国外企业要快不少。
服务过几千家金融企业的腾讯专家也表示,不管在保险行业还是在金融行业,甚至在一些现在比较特殊的制造行业来看,中国在各个业务场景,各个行业的业务场景上面是足够丰富的,也是领先于其它国家的。在使用所谓的互联网技术或者使用所谓的数字化转型技术上,几乎所有的行业都不落后于国外,甚至快于国外。
最重要的是,互联网企业在创新和创造的过程之后,能将这些技术变成了一种成熟的基础架构技术,赋能给金融行业、制造行业等,让这些技术应用得比国外更快、更强。
采访嘉宾:
沈勇毅,民生保险数据服务部副总经理
孔伟,腾讯云专有云产品中心首席产品架构师
苏彦春,腾讯金融云交付总监
专有云视频号