支持每天100万笔金融交易?农商行也可以

2022-06-17 16:37:57 浏览数 (1)

去年夏天之前,天津滨海农商行还没有感受到今天所能感受的压力。那时候,在以对公业务为主的模式下,日常的金融交易量只有5万到7万笔,最大峰值20万笔;而现在,这个数据突破了100万笔。

向“中小微 大零售”的业务转型,以及“聚合收单”业务的激增,共同促成了这种变化的发生——后者因为第三方支付政策的变化,每天的平均交易量从2万笔激增到了20万笔。

从夏天到秋天,再到冬天,郭万刚感受到的压力几乎和交易量同步飙升。作为天津滨海农商行的首席技术官,他最初的想法是采购新机补充算力,但很快,他又否定了这一思路。

按照流程,从批拨预算到完成测试,这个周期在银行系统内部通常最快需要10个月。郭万刚担心正是这一点,届时的算力已经不足以支撑这10个月了。

让三个节点都能支持APP

互联网服务打破了银行物理网点的时空边界;支付政策的调整,让小额、高频、高并发的交易即便对于中小银行也开始变得熟悉起来。

至2018年8月末,天津滨海农商行拥有营业网点108家,资产总额1610.18亿元,是一个具有典型“千亿”规模农商银行。这一规模在中小银行中,也具有代表性。

郭万刚在去年底面对的这些压力,也是那些相当数量农商行CIO们常常夜不能寐的原因——一方面,业务的高速增长带来了挑战;另一方面,这些业务对数据安全和业务永续的要求只增不减。

在天津大港地区数据中心基础上,2017年,天津滨海农商行在空港地区建立了容灾中心。两个数据中心分别位于天津的大港地区和空港地区。两地相距70公里,光纤距离近120公里。

2018年开始,基于业务变化,滨海农商行开始考虑应用核心银行系统(Core Banking System),它由Core Banking APP和Core Banking Data Base两部分组成。

银行业务种类繁多,滨海农商行的业务终端被分布在大港与空港两地,而综合前置等文件系统及核心应用,这时仍然由位于大港的生产中心提供服务,无法实现数据同步。

考虑到后期业务增长,郭万刚必须快速解决这些问题——生产中心和灾备中心的业务终端和应用服务器,需要尽快在保证数据的高可用和一致性的前提下,实现文件系统的双中心同步,让三个节点都运转起来支持APP。

遥远的120公里光纤距离

此时的郭万刚有两个选择,一个是NAS及开源方案;另一个是IBM Spectrum Scale的双活/两副本解决方案——方案中的GPFS文件系统(General Parallel File System)可在应用中将文件数据同时写入大港和空港两地,实现文件系统应用双活的目标。

IBM Spectrum Scale的高并发处理性能、多副本可靠性,以及超低网络延迟等特性的存在,最终“说服”了郭万刚,辅以方案在银行、移动等客户中的应用成熟度,滨海农商行此时心意已决。

“我当时的心态是,只要测试能成,就干!”郭万刚在2016年开始建设空港灾备中心时,已有计划要应用存储复制技术——兰州银行、西安银行等同行的做法在当时成了滨海农商行参考的样板,而滨海农商行的计算和存储规模也适应复制容量的要求。

当中小银行在谈论保障数据高可用的时候,往往会谈及关键业务负载,它涉及了两个层面:一是应用的分布式架构部署,另一个是数据库本身。

在前者,滨海农商行的方案选择让本地读取数据变得极为便利,进而也让业务可以不再依赖于远端数据;同时,双活的方案也让资源池化成为了可能——用户可以把多业务系统对文件的共享需求,用一个GPFS系统满足,后者甚至可以扩展到EB规模。

最大的担心,来自于120公里光纤距离。

IBM存储大北方区技术总监徐泰明在项目实施后说,要在120公里这个光纤距离上实现“双活”,最初“他内心是拒绝的”——因为预估的延迟可能达到15毫秒。如果网络出现“抖动”,延迟最大可能达到秒级。这对于复制技术和银行业务的要求而言,几乎不可接受。

“成不成就看实测了。”郭万刚最终拉上了三大运营商展开实测——三条光纤互为备份——让他兴奋的是,经过运营商调优,延迟真的被控制在了2毫秒内。

这次实测让徐泰明心里有了底,POC随即在双网络保证的背景下展开。这次POC中,IBM的IT、运维和研发部门集体到场参与。

滨海农商行和IBM团队将真实环境内的各种可能场景,尽兴模拟了一遍:服务器故障、网络故障、存储网络故障,甚至磁盘故障……大港地区存储 空港地区服务器故障,或者再反过来……。

“这是一次蛮有意思,也是蛮成功的一次POC。”徐泰明希望此次项目上线后,一方面能解决滨海农商行今天的问题,也能解决银行未来三年业务量进一步上升后可能出现的问题,因此他对测试细节的要求是:务必全面、到位。

最终,该项目从前期沟通,到POC,再到立项和成功实施,双方只用了1个多月的时间。

申报科技进步奖

在此前大港地区和空港地区的“两地三中心”布局中,业务应用B端的APP和DB同一时间只运行在一个中心里。在与IBM合作实现了分布式双活和负载均衡后,基于GPFS文件结构的优势,原本集中在一个中心上的计算量被分解到了3个中心里。

算力增加是首先呈现出来变化;其次,灾备演练也因此受益。

过去要实现同城中心切换,滨海农商行需要停机30分钟~60分钟——先拆开HA主备系统,下载主中心业务,再切换到备中心。

在实现多活后,郭万刚每逢灾备演练,只需要关闭“主中心”APP,“备中心”的APP此时将持续提供服务。同样的原因,灰度发布也在此后成为了可能。

项目实施后,另一个行业性意义开始同时凸显出来。此前,IBM国内银行客户同类项目最大光纤距离是70公里,这次项目事实上也为更广泛的中小银行,更加灵活地确保数据安全和业务安全,提供了一个极佳的参考。

中小银行多中心架构趋势在今天已经变得越来越明显,在这个背景下,滨海农商行远距离双活,加超远距离GPFS文件同步所达到的效果,已超越了项目本身——它意味着中小银行在选择数据中心布局时,可以考虑更远距离的两地三中心。

在滨海农商行双活项目实施后,同行也很快注意到了该项目的优势所在。一些同规模的“兄弟银行”告诉郭万刚,滨海农商行应该是已经走在了行业的前列。

人民银行也关注到了这一点。受到激励后,滨海农商行向人民银行申报了科技进步奖。

“评审们对文件系统的双活比较关注,认为我们这一块在中小银行里做得还是不错的。”郭万刚说,“使用IBM Spectrum Scale实现了双活,GPFS文件系统则解决了多服务器间信息交流的问题。现在,我们甚至可以修改自己的APP源代码。”

他说,考虑到IBM Spectrum Scale超强的扩展性能,后续将考虑把更多的应用系统纳入管理。

0 人点赞