上云是大势所趋,作为金融行业中最重要的版块-传统银行,在银监的安全合规、核心业务需要部署在内部的背景下,该如何拥抱云?除了虚拟资源外,其物理基础设施又将如何实现云化?下面让小编来娓娓道来。
让我们先从标题说起
1 银行
说到银行,需要先提一下金融云,传统的金融机构主要分为保险、证券和银行三大类(P2P、消费金融等Fintech类的,监管要求没那么高,目前算在通用云范畴)。这三类都有很高的监管要求,分别受保监会、证监会和银监会的合规管理,所以业界真正的金融云,其实主要特指这三类机构的解决方案。
银行:为适应现有银行IT体系平稳、有序地切换到新技术体系,我们推出“混合云部署”(公有云 专有云/私有云)和“双核驱动”(集中式 IT 与分布式IT混部)的五年规划策略,帮助大、中、小银行解决IT束缚,释放源源不断的金融创新力。
保险:为保险公司在渠道、技术、数据等方面提供“互联网推进器”计划,帮助保险公司互联网转型、创新以及从容应对IT架构如何支撑互联网业务发展所面临的系列问题。
证券:云计算平台满足证券、基金、交易所类机构的用户分布广、网络要求高、证券业务波动大和 IT 资源利用率低等现存问题。此外,内网直通支付宝、淘宝等网络销售平台,支持更多场景下的证券产品创新。
而在这三大机构中,监管要求上,是保险<证券<银行。毕竟银行两大业务-存款和贷款,都是直接和资金打交道,同时也代表着国家金融行业稳健性,一直是最保守、最谨慎的,所以银监会暂时不会允许核心业务上公有云,都是通过自建或租用数据中心这种单客户私有化专属的方式来设计和管理的。
2 私有云
所以,银行的云,是典型的私有云;他们的数据中心、网络设备和服务器都是完全专属私有的。关于私有云和公有云的 PK,在业界一直都有争论:大部分都认为公有云才是未来,私有云是历史的倒退,尤其是技术发展的倒退,觉得这东西就是以前传统系统集成商干的事情,不是互联网人变革的上流新事情,但其实这个说法是片面的。他们只看到了“私有”这个部分,这部分的确和传统集成差别不大,要“私有”并不难,但关键是在“云”这部分,即提供一套云管理系统,实现整个数据中心的自动化管理,由之前的手工管理变成系统管理。
其实真正意义上的私有云,是资源控制权逐步开放,管理逐步自动化的终极目标。如下图,是根据资源控制权划分的几种云形态。
云的几种形态
在公有云中,你只能接触到虚拟机,任何物理资源对你都是透明的,当这些物理资源遇到冲突时,势必会影响到你的业务,所以当业务要求越来越高时,他们对资源的控制欲望也会慢慢提升,希望能独享或控制物理机,有了投后云;希望能自定义组网,有了“黑石”的解决方案(随便提一下,其实“黑石”的核心是支持 Overlay 的虚拟网络,而非外界解读的物理机售卖);到最后连数据中心也独享,就有了私有云。这时,你等于裸奔了,原来隐藏在客户背后的供应链生产系统、运营支撑系统、异常发现和处理等机制、系统稳定性/易用性/安全性、运维的人海战术等,都表露无遗,要把数据中心真正“交”给客户,不是那么简单的。
3 定制
既然是单客户专属的,银行又财大气粗,所以这种方案通常都是有定制成分的,所谓定制,主要是指数据中心、网络架构和服务器机型方面,云平/网平/I平等会根据客户的实际情况、业务要求以及未来发展规划,为他们提供从规划咨询、High level design、数据中心选址、设备选型、数据中心建设交付的一条龙高级服务。类似IBM的大客户咨询服务。
4 DCOS
DCOS 全称是 Data Center Operating System,顾名思义,定位是数据中心的操作系统,用于支撑数据中心里,对物理资源(如物理服务器和网络设备)生命周期进行自动化的管理。接下来会重点介绍一下它。
是的,前面说了那么多铺垫的废话,终于上主菜了。
二 DCOS的诞生
1 为什么会有DCOS
某年,腾讯云迎来了一位新筹民营银行客户,代号 onebank。
银行专有云整体网络示意图
如上图,按银监会的要求,金融机构基本都是两地三中心,数据中心之间通过腾讯的 DCI 互联,出口通过腾讯的 TIX,但和腾讯内部 IDC 是不能互通的,是独立隔离的私有环境。数据中心在外部接入方面严格控制,大部分区域都需要 sslvpn 实现点对点接入,只有 onebank 特殊的办公区域,才有 site to site 的vpn 接入,从物理层面来做安全防护。vpn 接入后,通过云管理门户,实现对所有资源的管理。
在公有云的环境中,用户只需要接触到虚拟的云资源,比如云主机、云硬盘、云数据库等,公有云会提供一个配套的自动化管理系统,对这些云资源进行管理,如资源生产、分配、回收等。但在私有云的环境里,是整体连同物理服务器资源一起交付给用户,由用户自行管理,包括物理服务器资源的初始化安装、远程开机、关机、重启和重装等操作,如果还是通过以往人工和现场的方式来管理,效率会非常低,进而影响到云资源的管理。因此,在私有云的环境里,需要有一套类似云资源管理的自动化系统,实现物理服务器资源导入、自动发现、电源管理、系统部署、配置初始化和回收等生命周期的自动化管理,DCOS就是在这样的需求背景下产生的。
2 DCOS的产品定位
下面我主要从两个维度介绍一下 DCOS 的定位: 1)从资源管理对象的角度看,数据中心里有腾讯自采物理资源(腾讯标准的服务器和网络设备)、客户托管设备和云产品(虚拟机、云负载均衡、云数据库等),DCOS 主要定位负责腾讯自采物理资源的监管控,分为服务器管理、网络管理、配置管理和告警通知四大组件(如下图)。由于客户托管设备和云产品,都依赖上层的物理资源和配置管理信息(如IP资源),所以 DCOS 是首个进场的模块,同时也是最关键、最底层的模块,和基础架构环境如服务器厂商、机型、BIOS 配置、网络架构方案等,都有很强的关联性,需要一定的环境适配。
DCOS产品解决方案
2)如果把数据中心当作一个整体业务,从功能上看,最低配的银行私有云至少包括四大模块:接入层(TGW 模块)、逻辑层(DCOS 模块和 Vstation 虚拟化模块)、数据层(TDSQL 模块),后续根据需要可以增加数据层(CBS 块存储模块),TGW 负责外部或内部的负载均衡接入,DCOS 和 Vstation 分别负责物理和虚拟资源的逻辑处理如生产、监控、再分配、回收等,TDSQL 则是金融级数据库集群。
3 DCOS的设计思想
DCOS设计思想
和支撑腾讯公司海量服务器和业务的需求场景不同,DCOS 主要是面向中小企业,支撑大概万级服务器(含虚拟机)规模的私有环境,所以是全新的产品和架构设计,在产品设计思路上,和现在内部系统会很大的差异,设计重点不是物理分布式架构和高并发能力,而是 All-in-one 高度集成、轻量简单、易部署、易运维、易扩展: 1)涵盖服务器和网络设备监管控,并自带配置管理,高度集成,软件包或镜像形式交付; 2)与腾讯公司公共组件解耦,部分常见功能通过开源组件替代,以保证长期可维护性; 3)模块化设计、易集成、易部署:各功能组件是模块化,即可集成也可以单独运行,通过一键部署脚本进行自定义安装; 4)架构设计高可用:架构上是以高可用、易运维为目标,有健壮的容灾机制,双机双活,SET 化部署; 5)扩展性强,支持二次开发:几乎所有功能都会提供 API 接口,供客户上层进行业务整合。
4 DCOS的业务解决方案
DCOS的业务场景
从业务场景上讲,DCOS 希望实现从物理资源的准备、生产和运营三大生命周期的闭环管理。 1)资源准备阶段:经过上游资源的申请、采购、建设交付后,得到物理配置信息和资源规划信息(IP 资源等),并通过接口导入 DCOS 的 CMDB,建立 baseline; 2)资源生产阶段:当服务器物理上架,接上电源线后,即可进入远程管理阶段,服务器会通过带外自动发送 dhcp 请求到 DCOS;DCOS 根据 SN 信息进行配置验收无误后,分配带外 IP、标记“已开电”状态,并纳入裸机资源池,然后通过带外IPMI即可远程初始化、开机、关机和重启;当 DCOS 接收到上层部署需求(RAID、OS、IP、初始密码等)后,会远程让服务器进PXE状态,在 PXE 环境通过 dhcp 获取部署 IP,拉取对应的镜像和配置文件,完成部署,并通过后置初始化脚本,实现网络的配置,以及应用组件的批量部署; 3)资源运营阶段:主要是服务器和网络设备的监控采集和异常故障告警,以及服务器的远程管控。
DCOS管理控制台
5 DCOS的技术解决方案
DCOS的技术架构逻辑图
虽然设计思想是高度集成,但软件架构上还是分层、分模块化、易扩展的,即可纵向拆成单独产品组件,也横向扩展产品功能。各模块单独进程管理,模块间调用均通过各自 API,交互上比较清晰,维护和故障排查起来比较方便;存储上使用轻量的 Key-Value 文本存储和 MYSQL(当然也可以外部接入 TDSQL)。
CMDB的CI关系项
CMDB 基本涵盖了服务器、网络设备、网络端口、IDC 等物理信息,以 API 方式提供,并封装好常用的IP裂解/分配/回收和服务器搬迁等流程逻辑。
DCOS的部署架构
1)为了实现离线部署,DCOS 是以软件包或镜像形式交付,部署在物理服务器上;
2)为了结构清晰和易维护,每个 IDC 单独一个 SET(两台,主主双活,各自独立工作,不交互),只负责 IDC 内的资源,纵向管理,减少对横向的网络交互依赖;
3)支持接入 TGW 和 TDSQL 以增强容灾能力; 所以,在 IDC 容灾切换时,仅需要修改接入和数据库指向即可,从 onebank 当时的实战演习来看,这种部署架构的效果也很明显,切换速度快、维护成本低,很适合第三方使用。