三大运营商如何玩转云原生?|CNBPS 2020演讲实录

2020-12-29 15:12:41 浏览数 (1)

本文为11月19日,CNBPS 2020北京线下闭门会上,移动、联通、电信三大运营商代表畅谈运营商行业云原生技术落地的圆桌对话整理。本文阅读完毕需要8分钟。

01

赵昕:大家好,我是来自灵雀云的解决方案架构师赵昕,负责泛政企行业,今天由我来主持圆桌panel,非常荣幸请到了三位来自运营商的嘉宾。我们想通过 panel来了解一下运营商在拥抱云原生技术、迎接挑战、以及在云原生技术落地当中获得的一些经验。先请各位做一个自我介绍:

赵淳:大家好,我是来自中国移动创新中心的赵淳,我是一个IT行业的老兵了,做了十几年IT系统,但是在云原生行业里头还是一个新手,今年刚刚开始,希望跟大家多学习多交流,谢谢大家。

张亚威:大家好,我是来自中国联通的张亚威,现在负责我们联通天宫云平台架构设计,我们天宫云是从2015年开始基于容器化、微服务、DevOps等先进开源技术建设,慢慢一步一步的跟云原生技术结下了不解之缘,今天也很荣幸能到现场跟各位大佬畅谈云原生的未来,希望能够在这次活动中收获经验,回去把我们的企业内部的云平台做得越来越好,谢谢大家。

圆桌对话:三大运营商High聊云原生(上)

视频内容

圆桌对话:三大运营商High聊云原生(下)

视频内容

肖彦昌:大家好,我是来自中国电信云网运营平台云化推进处的肖彦昌,现在主要负责中国电信整个IT系统上云的工作,中国电信现在目前有将近4000套IT系统。然后按照领导的要求,我们要在三年之内完成上云,当然上云的路线可能不完全是云原生的技术,因为大家都知道IT系统的形态有很多,我们必须有选择性的去选择针对性的技术去完成架构的重构、上云。希望在论坛上能跟大家分享一下中国电信在3000多套系统里面是怎么去完成上云的,也希望跟大家交流这方面的经验,能跟大家学习一下各行各业的上云的过程,谢谢大家。

02

赵昕:今天这个Panel我们是以问答的形式来进行,希望各位通过对问题的解答,给台上台下、线上的听众们,以及他们所在这种公司部门提供云原生落地当中的一些指引、经验。第一个问题,运营商在IT技术和应用转型探索中各自取得了什么样的成绩和经验?

赵淳:我作为一个IT的老兵,就给大家分享三个痛点。

第一个,我们在做项目的时候,每年项目审批都是一个非常长的过程,以至于支撑不了前端的应用。因为前端应用的更迭是快速的,响应客户要非常快的,但我们每个项目审批可能都需要半年甚至一年的时间,这是我想分享的第一个痛点。

第二个,因为我们运营商的割接,一般都是在晚上,我做过很多大大小小割接,有些都是在晚上凌晨1点才能开始,早上的6点就要隔夜上线成功,所以整个过程非常短,每次对我们来说都是非常的一个紧张、忙碌的过程。

第三,我们在完成这种工业上线,前台的业务突然在某些情况下不能支撑前端的客户了,这时可能出现大流量的冲突,或者是出现一些bug。在这种情况下,我们就得做割接的回退,而且在做这种割接回退的时候,前天晚上上线的所有成果全部都流回去了。

痛点场景太多了,我就先举这三个场景的例子。

所以我们也是痛定思痛在想怎么解决这些问题,怎么能快速部署、故障自愈?怎么能拆分这种微服务,怎么资源共享?所以我们积累了很多的问题,针对问题自建了PaaS平台来支撑着我们中国移动的系统,目前也是支撑中国移动的一级系统,我们也给它起了个名字,叫磐基PaaS,寓意是稳固的支撑上层应用的底座。

现在,我们PaaS平台的规模大概在59个集群,支撑大概30多个一级系统,承载上亿用户量,集群的容器的规模在3万多个……我们跟其他两个运营商比起来,属于刚起步,今年我们打算全面的系统上云,然后一点点将我们的系统壮大。

张亚威:大家好,我就跟大家分享一下联通的天宫云平台是怎么一步步走到现在的。在2014年,我们就开始做核心系统的集约化,随着核心业务系统的几种,我们各个省分用户从省分BSS系统逐步迁移到cBSS集中系统,相当于是在一个平台里面要承载全国用户。

那就带来了一个问题,系统的承载能力达到了瓶颈,然后在那时候我们就做了一个分布式的改造,就是把系统进行了分布式、X86化改造。这是第一步,后来伴随着4G时代的到来,整个的话单量从4G到第3G基本上是10倍以上的话单量的增长,当时这个系统需要具备弹性伸缩的能力,快速的去应变市场的变化,包括整个系统的压力的增长,逼迫着你去做这件事。然后再去我们全面的进行去IOE改造,就是要把传统的数据库、应用系统、然后还有数据存储全都变成这种分布式的,做了一个全面的升级。

伴随着这个升级,又带来了一个问题。大家都知道原来的时候是在小机上的应用的处理能力是很强的,但是你做了X86化了以后,其实它的应用的处理效率是变低了,这种情况下需要增加程序的数量来弥补。机器和进程的增加给运维人员带来了极大的压力,x86主机,大家都知道它的稳定性肯定是比小机要差很多的。我们每天晚上都陷入了无穷无尽的这种运维救火的状态。后来为了摆脱这种状态,就想怎么去实现快速部署自动化的运维,包括应用故障自愈。

在2016年,我们引入了容器化技术,充分利用容器快速部署、迁移的优势,对我们的核心集中系统进行了容器化改造,刚上线我们系统就已经达到7万多容器了。我们不仅把应用都做到容器化,整个系统用到的PaaS的组件,包括消息的数据库等等全部都做成了容器,然后用一个大的资源池统一的去做管理,因为容器跑的一个最大的好处就是说你再去扩展资源的话,就相当于是你可以直接把机器加进来,加到集群里面,可以利用这种容器的好处来做到它的这种漂移、扩展,就相当于系统更加弹性了。

伴随着我们逐步的业务量的增加,包括我们系统集约化进程进一步加快,在2017年的时候,我们把基于生产最佳实践的平台进一步打造了集IaaS资源和i-PaaS能力于一体容器云平台,也就是我们的天宫1.0版本,初步具备了这种云化的资源池管理、两级资源调度的能力。

从2018年以后,基本上天宫平台保持一年一个大版本。2018年发布了天宫2.0版本,增加了多租户、微服务、K8s等特性,2019年发布了4.0版本,产品化能力大幅度提升,提供了公有云体验的私有云门户,你想要什么资源你可以去线上申请,申请以后自动的开通自动的交付。

今年,天宫全面形成了基于云原生的架构,打造一个我们中国联通的数字化的底座,然后实现全集团使用这个平台的时候一致的体验。我们提出一个口号叫共平台、共能力、共技术站、共研发体系、共治理体系。

实现这个目标离不开云原生技术,我们把容器化、微服务,DevOps结合到技术中台中,也就是由我们天宫、天梯、天眼、天擎,四大平台组成的一个技术中台,整个的核心还是围绕着我们云原生技术,实现了我们总部和省分的这些应用,能够快速的基于一套平台去响应市场的变化,做业务创新,快速上云。目前我们还在继续推进这件事,这是整个我们天宫的一个发展历程,谢谢大家。

肖彦昌:中国电信和中国移动和中国联通的机制都不一样,我们内部一直开玩笑说中国移动有钱,他想干什么都能干成。中国联通有机制,他可以找互联网公司,但中国电信怎么办呢?我们又没有钱,又没有机制,所以我们只能靠自己。

在14年的时候,我们就开始准备做BSS的重构。这个事情做起来是非常难,因为中国电信的 It系统跟另外两家运营商还不太一样,中国移动它虽然也是两级架构,但是它使用的自主性是非常强的;联通是在3G的时候就已经实现了IT系统的集约,但是中国电信还是两级系统。

14年的时候评估了一下,如果我们要做集约系统,能不能做成?最后发现这个是根本就实现不了的。为什么呢?简单来说,我们目前的套餐数有几万个,用户数有几亿人,每一个需求的变化,如果都由集团来做的话,那是一个非常恐怖的事情。所以14年的时候我们就确定了,还是要保持两级系统。

在14年的时候,领导又给我们提了一个难题。他以12306和阿里为例,12306为什么每次到抢票的时候就瘫痪了?而阿里巴巴双11那么大的量,它为什么都瘫痪不了?传统的IT架构和互联网IT架构肯定是不一样的。我们现在就是传统的架构,未来要走向互联网架构。怎么走?IT部门来解决!

所以从14年开始,我们就开始研究中国电信的IT怎么去演进的事情,然后17年,在我们研发中心成立两年之后,我们已经实现了PaaS的组建一些产品的资源,尤其是核心系统用到的的PaaS组件我们全部自研了。

17年年底,互联网化的分布式架构,其实在福建和广东已经成功的试点。当时也是提到云原生,然后微服务。除了广东和福建之外,我们还有4个省公司在做微服务改造等云原生改造,但是他们其实底座还没有用到我们资源的这些PaaS组件,这是17年第一阶段,基本上初有成效。

然后二阶段,广东福建核心系统试点成功之后(也就是BSS核心系统),是央企里面第一次、第一个完成了去IOE的。17年试点成功,那么18年就要全网推,还剩27个省要推下去。这时候,大家都知道开源这个技术虽然很好,但是也有很多问题,首先它的技术发展非常快,另外它不像传统的商业软件,有很好的支撑机制的,但是开源软件不知道如何兜底。然后就是开源软件的安全问题,依赖于开源社区,并没有人能说一家公司能对开源软件的安全做得非常好。

所以在全国大范围铺互联网化架构改造的过程中,尤其是在我们核心系统,当时就制定了这样一个策略,中国电信的IT系统使用PaaS组件一定是标准化规范化的。18年的时候就制定了中国电信IT系统做架构改造、上云的PaaS总结清单。也就是,大家在做系统架构改造的时候,一定要在清单内去选择组件,而不是随随便便的去选。

基于这个清单,我们做了很多的事情。比如说,我们基于这个清单做了每一项接口的研发,大家在部署清单之后,它的监控指标、配置数据自然而然我们就获取到了,而且全网是统一的,这样的话你出问题就一个省,要不出问题就一个省都不出问题,要出问题大家都出问题,所以这是当时做的非常有价值的一件事情。全国的IT系统遵循统一的PaaS统计清单完成上云。

18年到19年,我们一直在全国推广BSS系统上线,19年年底的时候做完了。今年,因为有前面这两个阶段的积累,领导也非常有信心,说不只是BSS系统,中国电信所有的IT系统都要按照这个模式上云。所以今年大家可以在新闻上看到,中国电信三年完成上云,新建系统100%要按照这个架构上云,然后存量的系统是“关移并转”完成上云。

为什么要做这个事情呢?就是因为中国电信它不只是要把自己的事情做好,还要去帮助国内其他企业或者政府,或者其他政企客户完成“云改数转”。所以从今年开始,我们就开始推全国的上云工作。

大家都知道,如果每个系统都要做云原生改造的话,它的代价是非常大的。何况中国电信有将近4000套的系统,那么全国都在问怎么办?所以从集团来说,我们给大家把 It系统分了分类,第一类叫核心系统,核心系统应该是至少在省公司层面来说,它不是特别多,还有一种叫外围系统,外围系统是非常多的。

另外,我们把系统的上云做了一个标准,我们分成了三个等级,一个是L1、L2、L3。其中L1一我们就希望至少把上游软件去掉就可以了。L2至少要做到应用的解耦、弹性扩缩容,用我们统一的PaaS的底座就是L2的标准。而L3就要求非常高,完全是云原生模式。

这是三个标准,两大系统分类。然后是梳理系统清单,大概近4000套系统三年完成上云,这是我们第三阶段要做的事情,第四阶段其实也在也在做,但是我个人还是没有想到会进步得这么快。

第四个阶段准备做什么?是因为中国电信的IT系统是非常复杂的,它几乎涵盖了我们所能见到的所有的IT系统的形态,所有的设备、硬件设备、软件,几乎市面上你看到的中国电信都有。中国电信在这三年上云过程当中,如果能够实现“云改数转”,那么就意味着,中国的所有的外部客户,政企客户,包括我们的小客户都可以按照我们的经验完成“云改数转”。

所以第四阶段,我们准备把我们的IT的能力提供出去,但是从目前来看进度太快了,然后我们其实自己还在做,但是很多外部的客户都已经找我们说这个事情。在这个过程当中,我们也总结了整个IT系统上云的 “五步骤十流程的方法论”。目前中国电信在“云改数转”、上云,分了4个大大的阶段,其中也沉淀了很多的方法论。

另外两家运营商刚说他们“盘字辈儿”和“天字辈儿”的平台,其实我们也有四个平台,我们是“云字辈儿“的PaaS底座,我们叫“云眼”,然后类似监控系统就是我们叫“云翼”,然后还有一个叫DevOps的流水线的系统叫“云道”,还有一个数字化能力开放平台我们叫“云桥”,这是我们目前在做的事情,这四个平台目前已经在支持全国近4000套系统上云,然后具体架构或者是什么找时间再说,谢谢!

03

赵昕:感谢各位的分享。刚才我听到三位针对运营商在IT技术和应用探索的成绩,我总结大概是三点,就是“集团推动”、“构建的平台”,最后“制定标准”,我相信这个过程肯定不是一个简单的过程。下面我们进行第二个问题,运营商在应用的转型还有云原生技术采用的方面,面临着哪些的挑战?

赵淳:刚才有一点没有讲到,我们中国移动面对的是31个省级公司,一级跟省级公司是直接面对的关系。因为我们的系统还没有做成这种像电信、联通一样集中化的系统,所以这个对我们是一个非常大的挑战。

我要说的第一点是,我们省公司集团设备,怎么通过集团一级管到省端,怎么能够将边缘计算使用起来?我们现在在做相关的探索,因为我们有很多一级系统直接触及到省公司。

第二点,我们做微服务治理过程中,像Spring Cloud和Service Mesh 2.0等,我们怎么能在一个平台上兼容这些新技术,这也是我们现在面临的问题。

第三点,作为运营商我们面对很多集成商和技术厂商,我们怎么去做到这种代码管理,怎么做到这种一体化交付,和一体化研发管理?这个其实也是我们面临的几个比较重点的问题,现在也在一个个攻关。

张亚威:我们也做云平台做了这么多年了,真正的难题体现在刚开始去形成统一的云平台的时候。虽然有很多开源技术可以去利用,但是在我们的分析过程中,发现了一个核心问题“云计算的核心到底是什么”?不管我们去做PaaS还是做IaaS,按我的理解,云计算的核心其实就是三个东西,“计算、网络、存储”,这三个是云计算的基石。

咱们现在聊的所有面向应用的技术平台,虽然重要,但如果脱离了基石,上面应用就都玩不转了。在平台形成的过程中,不管是用了什么开源的技术,要对计算的资源做虚拟化,不管是用我们的虚拟机的技术,OpenStack、还是容器的,最终还是要想怎么去有效的去管理去利用资源。

对存储来说,怎么去做这种计算和存储的资源的分离,怎么把存储资源更有效的利用。对网络来说,怎么去向应用提供这种虚拟的网络,云和网是怎么联动起来的,以上这些都是非常困难的点。

我们后来也分析过,互联网厂商像阿里、腾讯等,他们为什么很快就能响应K8s和Docker这种最新技术的,但我们为什么就走了很长的路才去走到今天这一步。分析后来发现,互联网厂商他们是最早去介入到云计算这个领域的,然后他们Open Stack、虚机时代,都有大量的针对于底层的技术的积累和掌握,然后云原生技术快速火起来以后,他们快速的把自己的技术跟云原生的技术结合起来,然后才能快速的就走到前面去。

从2017年发现这个问题以后,我们在底层的技术的研发上就投入了大量的力量。包括针对底层容器的资源的管理,我们做了一个联通自主研发的一款CKE的K8s的引擎,可以快速的从虚拟化的资源里构建一套用户的K8s独立的集群出来。另外,容器网络方面,我们也是基于开源的容器网络技术kube-OVN,也是现在灵雀云主推的一款开源网络产品,我们一直在与社区同步最新技术,在后面可能还会有一些联合开发和商务合作。另外存储方面,相信大家也都是知道Ceph的存储,一直都是比较火,我们也是一直在去针对Ceph去研究,去提供这种云上的块存储、文件存储、对象存储等等。

其实你发现了就是说当你把底层的资源搞好了以后,PaaS很简单,不是说它这个技术很简单,而是说用好PaaS层的能力用好不难。开源的东西做到自主掌控,你具备了它出现问题,你都把它修复,把它改正了这个能力,那就是这种情况下,开源技术才能真正的为你所用。

当把底层的这些能力都搞定了以后,其实剩下的需要做的就是跟云平台去结合。你可以把PaaS能力认为是运营的云平台上的一个应用,怎么去把PaaS的组件,跟底层的IaaS的底座做计算网络存储上的结合,结合好后剩下的东西很简单了,就可以做到你在云平台上的资源的统一的管理。相当于如果要资源,可以通过IaaS的统一的资源管理申请到资源去运行,不管你运行的是我的业务应用还是PaaS能力。

另外就是云原生技术的三驾马车,容器化、微服务和DevOps,它的目的我觉得还是更好的去服务云平台上的应用。我们联通在几年前,包括咱们三家运营商可能这方面都比较相似,都是很传统的应用。做传统应用的时候,会面临一个很多部署、开发的问题,以及怎么敏捷交付的问题等。云原生的技术的出现,大大的促进了企业快速的去适应市场变化变化,原来的时候就像我们之前一个应用开发的周期最短30天,现在如果还是30天的话,黄花菜都凉了。所以现在敏捷的开发,容器化的部署,包括微服务的开发模式,能快速的让你把开发的应用融入到体系里面,快速的上线。对于一个企业来说,能够快速去响应市场的变化,才能走到市场的前面。谢谢大家。

肖彦昌:关于面临的挑战,我想谈三个方面的感想。

第一个就是技术门槛上的,在今年年终的时候,中国电信的IT系统上云是三个标准,其中L3是我们的标杆系统,一定要按照云原生模式上云,云原生L2要素,直到现在都快半年了,省公司包括合作伙伴,包括专业公司都还在打电话问我,说云原生L2要素,我只做到两个算不算L3的标准,这个问题我回答了无数遍了,所以我们面临的第一个挑战就是统一大家的思想认识,这是第一个问题。

第二个问题,大家都知道容器化、微服务化改造之后,面临的应用之间的关联关系很复杂,怎么解决维护的事情其实是非常难的。既然说到这个话题,我就把我们四云平台里的“云眼”给大家介绍一下,大家都知道,在三大运营商的客服的评价里面,中国电信客服的满意度是一直是排第一的,为什么?因为我“云眼”发挥了很大的作用。

“云眼”现在能做到什么呢?就是一个用户充值失败了,你就会打客服,问为什么会失败?客服就是一堆的官方的回答,现在不是这样了。现在我们可以做到端到端的监控,就是从出点开始一直到最后系统返回,不管它跨了多少个省公司,跨了多少个系统,我们都知道。所以客户没发现之前,我们就已经发现了这笔充值的订单卡在哪里了,是哪个省的哪个系统出了问题,这是第一步做到的事情。第二步就是现在可以做到跨三层,如果系统出了问题,想知道它到底是应用的问题,还是PaaS的问题,还是IaaS问题,还是网络的问题?以前也很难判断,但现在通过这么多年的积累,包括我刚才说到的我们在这个系统架构重构的过程当中,都已经做到了标准化。系统出了问题,我们很容易就判断出来到底哪个层面出了问题,恢复起来也比较快。

目前因为云原生技术,微服务改造、容器化部署这个事情一直在推进,“云眼”一直在做一个事情,就是希望在应用部署的时候就把应用系统的埋点做好了。不管是端到端的业务的监控,还是说跨三层的监控,在应用上线部署的过程当中,就已经把埋点埋好了,“云眼”在这个方面起了很大的作用的。

第三个挑战,中国电信全国有将近500家的合作伙伴,首先不只是技术层次不一样,大家对应用改造的支持力度、理念也都参差不齐,所以要想拉起所有的合作伙伴,技术层次其实是非常难的。还有一个情况就是,我们的合作伙伴,自己也有很多PaaS的产品,但刚才也提到了,我们是清单制管理,不允许使用的,很多省公司是不太关注业务具体怎么技术实现的,他们很多偷偷的把自己的产品用到了我们的核心系统上,或者是用到了我们生产系统上,这个事情其实也是目前来说是比较严重的。

所以今年我们从集团开始干了一个事,我们与所有的合作伙伴都签订了承诺书,一定要遵循我们的规范。什么意思呢?从合同签订或者说从可研开始一直到最后的工程验收,我们都是依据这6项承诺,既然你公司签订了这6项承诺,我们就严格要求,这是我们第针对于第三个挑战所采取的一些措施。

我刚才提了三个问题,第一个就是技术门槛怎么把大家拉齐,怎么让大家让大家认识到云原生到底是个什么层面的东西。然后第二个就是面对这么复杂的系统,运维怎么办?第三个合作伙伴不配合的事情怎么办?然后我也跟大家简单介绍了一下。好,谢谢!

04

赵昕:在云原生建设的过程中踩过哪些坑,能不能给在座的各位一些实操方面的指引?

赵淳:我们踩过的坑太多了。举个例子,我们用的是Calico网络,发现7个系统底层的容器各个集群之间是不能互通的,我们排查了很久,抓包什么都没有问题。后来就查到IaaS层,我们发现IaaS层也做了一个隔离,网络的MTO的参数在两层不统一。

我们中国移动的PaaS平台是刚刚起步,在一点点成长的过程中,我们也是把这些上云的经验、知识,包括建立集群、安全、操作统一、上层适配等这些经验积累储存下来,最终希望整成一本上云的“四库全书”,把我们的安装、运维、配置等等工作,都封装到书里,之后发布给大家!

张亚威:云原生技术大部分都是开源技术,不管是咱PaaS层的,还是一些IaaS层的技术,或多或少的话在使用的过程中都会遇到各种各样的问题。

举个我们在生产上遇到的问题,当应用都是以容器做承载的话,就会遇到一个问题——需要有一个存储容器镜像的地方。我们目前的6个数据中心分布在全国各地,我们的应用系统要做到多地、多活,一个镜像这个数据中心要用,另外的数据中心也要用。这就面临一个问题,镜像在这里存储以后,在另外一个数据中心如何使用的问题。

最早我们用比较笨的方式,上传镜像后,要在另外一个数据中心用就把镜像导过去。后来发现这种使用场景越来越多,而且在跨数据中心大量传输时,会产生很多其他问题。后来我们就想了一个办法,在北京数据中心建了一个大的镜像仓库集群。

但在使用的过程中发现,跨数据中心的镜像拉取,会导致各种各样的问题,比如拉不下来,拉的时间特别长,应用启动速度特别慢,就会有一些质疑的声音,“不是说用了容器以后启动特别快,都是秒级的,你现在10分钟了都还没起来?”我们怎么解决这个问题呢?

我们搭建了一套树状的镜像仓库集群,现在我们有一个中心的节点,它作为根节点,当镜像上传以后,使用开源技术Dragonfly,镜像仓库大家都用Habor,配合Dragonfly就实现了我们在各个数据中心部署了好多叶子节点,当需要时,就把镜像传到中心节点,其他数据中心使用时,可以给它配置一个侧点,这样他就会把你要在中心节点上传的镜像,自动的采用这种预热的方式分发到各个的数据中心,每个数据中心使用了P2P加速的镜像分发技术。现在再去拉起镜像的时候,不必再去到集中式的数据仓库里面,可以从各个数据节点上分发拉取镜像,解决了一个很大的问题。

第二个问题是关于DevOps。DevOps其实是一种理念,如何去做业务持续集成、持续交付的一套理念,DevOps的落地有多种多样的形态。其实云原生技术讲的DevOps,并没有限定说你必须要使用哪种工具,哪种开源技术去实现DevOps。原来我们其实也去想着去做这种统一,把工具什么的统一了,但是发现其实统一工具并不是重要的,对于企业来说研发过程的管理更需要统一。我们的天梯平台,也就是我们的DevOps平台。DevOps最终在企业里面落地,首先要做的第一个点,就是要提供一系列去支撑DevOps落地的工具,包括代码的管理、制品的管理、流水线、持续发布、持续集成、持续部署的这种工具等等,让你的应用去选择。另一个要形成标准化的体系,来去管控应用研发的质量。其实要做的就是,研发过程的可见可度量,代码研发的质量、代码的缺陷、最终交付的效果等,都可以清晰的数字化的看出来。

其他坑也很多就不一一介绍了,还是希望能够有一个公共的平台去把大家的经验和教训分享出来,当遇到坑以后,可以看一看别人怎么解决的,群策群力为咱们的开源社区贡献一份力量,谢谢大家!

肖彦昌:我就说两小点,第一是微服务颗粒度的问题。微服务拆分拆到什么情况下才叫“微”,我们很多应用系统在上线的过程中会发现,很多重的服务作为微服务上线了,这是我们碰到的第一个问题。

第二个,大家对于云原生的这个认识可能不一样。有人一直说我已经做到了云原生,然后刚好碰到有个领导特别喜欢做这个检查,他怎么检查呢?他直接去机房把你的电源拔掉,然后发现系统瘫了,说你这叫什么云原生?这两点都是我们踩过的坑,也是后续需要加强的地方,是指导各个系统或者各个合作伙伴比较重要的两个方面。

05

赵昕:非常感谢各位,刚刚说到的这些技术点和趟过的坑,比如说容器网络、Habor、高可用,这些都是灵雀云基于自身的产品来帮助客户做落地时,希望帮助客户解决的问题。也希望以后我们有机会跟大家来合作,帮助运营商把这个坑趟过去。

我们来聊下个问题,经历了前面说到的这些实践经验和方案选择之后,如何找到满足当前和未来需求的云原生建设的路径?

赵淳:我前10年是一直做底层技术的,最近三四年做应用系统, toB、 toC场景的支撑都做过。从我个人感觉来说,不管多厉害的技术,一定要支撑上层的业务,要场景化才有价值。所以我们移动今年的目标,是要推广上云,把云原生技术推广下去,追求上云的价值。

要做到这种价值,不能把原来的老架构搬到新平台上。云原生技术如果不能更好的为上云的场景和业务服务,就没有任何意义了。所以我们下一步要做的,就是价值上云,第一点是到各个系统去推广云原生技术,以前我们只强调推广的广度,下一步我们看重推广的深度,让上层的业务系统清晰地知道云原生能为他带来的价值。第二,从上云的过程来说,整个PaaS的建设要前置,跟上层业务系统结合,根据上层系统的场景转化,为上云提供一个个技术方案,包括组件的使用,如何搭建高可用,如何做到故障自愈,如何做服务治理,这些都是上云的过程中必须解决的事情。

张亚威:刚才移动和电信的两位都提到,我们三家运营商都在推动应用上云,说明大家都是有共识的,你只有这么做,才能更好的去发展,去做数字化转型。

我们联通也在推动应用上云这件事,遇到的第一个问题就是,为什么要建统一的数字化底座?我们要建一套公共的技术栈平台,目的就是我们是要先能够承载。联通做集约化比较早,程度也比较深,今年要做到 CBSS全国的集中,也是世界上最大规模的电信业务支撑系统,目前跑了将近有20万的容器在里面,规模已经特别庞大。

我们做数据化底座,第一是要承载总部的核心业务支撑系统。从大的层次上,我们分了五大中台,包括公众、政企、数据、网络、管理,五大中台运行在我们的数字化底座上。数字化底座利用云原生技术的优势,来快速的支撑总部的这些核心中台系统的发展,包括省公司的应用。

另外一个,现在我们使用云原生技术,更多停留在系统建设者或者系统运维者的角度。比如说K8s原来对业务开发人员来说,他只需要去写好应用代码就行了。但当容器化、微服务、DevOps这些引进来,他其实要了解的东西很多,需要去了解K8s里面的各种技术概念和术语。

比如我们业务省份的一个业务要上云,提供统一的技术栈平台,他要用好这个东西其实是有一定门槛的,需要把这些概念都搞清楚。比如怎么把应用打包跑上去,用什么形式跑,扩缩容的策略是什么。这是我们应用上遇到的一个很大的问题。所以我也一直在关注咱们国内的开源社区有没有一些比较好的方案,也看到开源社区在这方面的一些努力。包括阿里的OAM,以应用为中心的模型。希望咱们的开源社区,从不同使用者的角度,把底层的这种技术细节给屏蔽掉,把这个东西做得更加简单化、规范化,开发人员只需要关心他的代码,而不需要关心怎么部署怎么运维,运维人员只关心怎么跑起来,而不用关心使用什么存储什么网络。我希望在这一方面能看到更好的发展。

肖彦昌:我还是说两个方面,第一使用云原生技术首先要有驱动力,不管是业务驱动力,还是降本增效的驱动力,只有标杆系统才会用到云原生技术。

举个例子,比如说绩效考核系统、车辆调度系统,他可能一台虚机就搞定了,干嘛非得要用云原生呢。有了驱动力之后,再去选择系统的标准或者架构,有针对性的去选择技术方向,这是驱动力的问题。不是所有的系统都要用云原生的模式。

第二,系统既然要上云原生,就一定要给大家方便的提供这方面的能力。比如刚才灵雀云有一张PPT写得非常好:全栈、开箱即用。你想让大家用容器,就要很方便地把容器环境给大家。要让大家用DevOps这套流水线,就得提供这个工具。还有,以后应用上线这么复杂怎么去做监控,这个工具你也得给大家。只有这些工具都准备好了,应用云原生的技术才会变得很方便。

06

赵昕:好的,感谢各位刚才的分享,我总结一下,满足当前和未来所需要的云原生架构和建设路径,可以总结为两方面,首先是思想上的转型,从认知或者对技术的了解,决定要采用什么样的架构。第二是技术的转型,这个转型不单单是从传统架构转向云原生,而是提供给开发人员的产品的成熟度是不是能够满足需求,大大降低对云原生底层技术并不非常了解的开发和运维人员的使用难度,像灵雀云的产品能够做到开箱即用那样。

从这几个问题中可以看到,实际上我们运营商拥抱云原生,也是经历了一个从顶层设计,再到标准制定,再到实施规划的一个过程。挑战的话,技术层面是说,不止是技术人员对于理论技术本身,或者某个单点的云原生技术的挑战,而是云原生技术体系,掌握这项技术如何让技术能够真正的落地,才能服务于我们内部的系统。

第二个挑战来自管理层面,就是需要去转变我们管理的理念,从传统的基于业务系统的运营,转变到云体系下的这种运营的理念,同时我们的组织架构肯定也经历了相应的调整和改变。

最后,灵雀云在不同的行业有大量的落地经验,也有相关的产品和服务来做支撑。就产品而言,灵雀云能够提供企业级云原生的全栈产品。服务方面能够提供业务上云、DevOps开发咨询、微服务开发咨询等各种服务,希望未来基于我们的产品和服务,能够帮助电信行业,以及更多的行业客户,帮助企业实现云原生技术的落地,同时灵雀云也享受到云原生带来的一些收益和价值。

最后一个,各位能不能给云原生送一句话,或者说自己的畅想?

赵淳:其实我们更强调云原生技术的落地。我这句话可以分成两部分,第一部分“化云为雨”,第二部分就是“雨打沙滩万点坑”,希望把云原生技术落到地上,而且能够响亮。

张亚威:我觉得云原生技术还有很长的路要走,一句话“拥抱云原生,我们一直在路上”。

肖彦昌:开源的生态是很重要的,希望三家运营商能一起努力把PaaS层面的生态建立起来。

0 人点赞