中国移动大数据总架构师段云峰:无所不在的大数据分析

2018-04-19 16:10:44 浏览数 (1)

<数据猿导读>

中国移动大数据总架构师段云峰在2016年中国信息通信大数据大会上发表了以“无所不在的大数据分析”为主题的演讲.他主要给大家分享了中国移动在系统架构方面的内容,包括移动大数据演进的历程,中国移动在大数据方面一些架构方面具体的实践

数据猿报道,2016年4月20-21日,2016中国信息通信大数据大会在京召开。大会以“开放共享、转型创新”为主题,聚焦通信业大数据产业生态,邀请工信部、院士专家、三大运营商集团及省市大数据相关业务部门领导以及领先的大数据产业领军企业及应用单位代表出席,共同探讨通信业大数据发展带来的产业机遇和挑战。

本次大会主要针对前沿ICT技术与解决方案对运营商大数据能力建设的提升以及业务运营、架构的转型影响,通信业大数据的开放应用以及开放、共享、创新的产业生态等热点话题展开讨论,全景展现运营商大数据能力建设规划与开放应用策略。

本文由“135编辑器”提供技术支持

以下是数据猿现场独家直播“中国移动大数据总架构师段云峰”的发言实录:

段云峰:大家好!很高兴有机会跟大家在这个会场做一个中国移动在大数据方面做的相关工作的一个介绍。我演讲的主题是系统架构的一些内容的交流,首先说一下中国移动大数据演进的历程,第二部分是在大数据方面一些架构方面具体的实践,最后谈几个关键点,这是主要内容。

首先说一下运营商对大数据技术的需求,中国移动在2001年就开始启动了原来叫数据仓库系统的规划和建设的工作,从2003年开始建设以后,包括一直到2015年我们在数据仓库领域大概的容量应该超过20个PB,算上Hadoop的容量,大概超过100个PB,在运营商里容量算比较大的,这是大概一个情况。

前后花了上百亿的投资,运营了十几年,我们在国内算是积累了一些运营的经验,给大家做一个介绍。首先说一下运营商对大数据一些基本的需求,在国内在大数据发展比较快的行业,一个就是电信行业,我们算比较早的。主要的原因,我个人认为因为电信运营商手里有海量的数据,这些数据IP化做的比较早,做的计费等等一些系统,已经把这个数据基本的存储和处理工作完成了,所以后面才具备可能,把这些数据以大数据的形式进行存储和应用。

在运营商里面这些数据量是比较大的,原来在电信运营商主要的数据量是大家的话单,每个人打一个电话,数据以计费的形式留下来。现在还有一些信令的数据,信令的数据意义更大一些。

从我们现在整个系统架构来说,大概包括几块内容,一块是传统的数据仓库的部分。我们现在又引入了MPP,MPP是和传统的数据仓库作为一个有效的互补,好处是它是用X86,原来我们用的小型机,成本比较高。第二个部分就是Hadoop系列的一些内容,我们有各种各样的数据,账单还有日志,把这些数据存储,进行查询,进行有关的处理。还做一些实时监控,我们省里做的好的,已经做到分钟级的一些指标的汇总统计。

传统的情况下,中国移动做的比较早的都是数据库,现在说白了,当年我们经营分析用到的是IBM等三家数据库为主,在国内也算用的比较早的。这是中国移动大数据演进的一个基本历程,这是2001年我们做的系统架构,这个架构是数据仓库的架构。当时做了一些数据的转换,放到数据仓库里面,然后通过一些集市,来去做上面的数据挖掘、报表等等这样一些应用。这是我们看到的情况,2010年我们做Hadoop云计算的研究这方面的工作。目前基本上把Hadoop底层的一些技术做了一些研究和探索。从去年开始,整个全国范围开始正式启动大数据的建设工作,这是基本的一个情况。

15年这个架构大家看,可能比较复杂,我们内部说叫混搭式的架构。既有原来传统的数据仓库,也有刚才提到的MPP,也有Hadoop,还有实时计算,之所以出现这种混搭,我个人认为应该是暂时的,因为现在Hadoop的发展速度很快,但实际上它的处理能力现在有很多方面还需要完善。目前运营商这个阶段只能采用混搭的这种架构,我们希望将来这种混搭的结构能够尽快结束,能够统一到一种体系上。

这是我们现在数据存储的部分,我们对外也提供数据共享,这是做的各种各样应用,包括分析,客户洞察等等方面的应用,包括数据质量的管控,数据管控中国移动积累了十几年的经验,最痛苦的时候,我们曾经面临过困境,最后业务人员不太认可你的数据质量。你怎么去证明你的数据质量,困惑很多,而且以我们的经验来看,真的是在做大数据,我们原来做数据仓库的情况下,60%左右的精力是放在数据质量上,在数据运营保障方面积累了一些经验,这是业界在大数据领域还没怎么触及的,这是我们从2001年就开始积累的一些经验。

运营商的数据十分复杂。B域大家能感受到各种各样的系统,大家一般知道CM系统,实际内部还有我们自己各种各样的系统。这里面数据的情况,主要是一些基础的客户订购这方面的内容,包括使用产品的情况。我们有一些M域的信息,包括ERP相关的系统,像中国移动和外界的接触越来越多,所以导致这个系统越来越复杂。下面的数据就是一些资产类的、网络类的、O域的数据,这个数据也很复杂。

我们现在还有一些DPI的数据,主要是针对信令数据做的一些解析。还有一些业务系统,中国移动搞的比较多的业务平台,包括大家知道的一些飞信等等一些业务平台,这些内容也产生了大量的数据。这个容量现在大家能看到,数据第一是量大,一百多个PB,第二个最主要的问题,特别杂,比较复杂。

中国移动在过去十几年间怎么去整合这些数据,也是积累了一定的经验。目前大数据系统B域的数据已经完全纳入,现在O域也纳入了一大部分,M域现在已经在逐渐涌入,DPI的数据基本也在纳入,业务系统的数据之前就已经纳入了,内部正在整合的就是M域和O域,这是一个基本的情况。

数据说完了,下面就是过去中国移动大数据的系统我们做的一些应用,全国性的60多个应用,我解释一下,指的全国总部部署的一些应用,大概60多个,实际不止,这个模型一百多个分析模型,服务内部的是十万多个员工,这些应用的情况应该是在电信用的比较多的。因为时间原因,不展开了。包括电信行业大家见到的基本模型,在中国移动都有相关的应用案例。上千个省级的个性应用,个性化的应用也很多,很多省基于自己本地的特色开展一些业务。

这是中国移动目前为止对外打造的大数据平台服务模式,中国移动作为一个传统的电信运营商,我们积累了海量的数据,现在在大数据这个环境下,我个人觉得也是需要加强跟外部的合作。后面我们傅博士会给大家介绍,我们浙江省在对外合作方面做了大量的工作和案例。整个中国移动大数据的系统有DAAS,数据服务,还有PAAS和SAAS,PAAS的服务现在正在建设,SAAS按照计划应该是在明年会形成有关的能力。现在从省里的情况来看,包括政府做人流的监控,包括和交通,包括和旅游,很多方面都做了不少应用,跟金融方面做了一些征信的应用,跟互联网公司做了一些合作,在做一些工作。

这是大数据的一些主流技术,我们做的一些实践的情况。一个是Hadoop,还有MPP,还有流处理,还有数据采集等等这些内容,跟大家做一个介绍。

这是具体的实践情况,这些技术都是在三四年前开始在做研究,Hadoop这是在一个省里做的一个情况,引入了Hadoop平台,它的效果实际上就是提高了详单的查询情况,从秒级到毫秒级,这是在Hadoop上应用比较多的一个应用,也是比较成熟的应用。

还有处理效果方面,做了一些并行的操作,日志的一些处理。压缩方面,能够进行有效的压缩,压缩能达到6倍,这都是一些真实的效果和案例,跟大家做一个分享。

Spark也是在省里做了一些应用,速度增加了20%,效果比较理想。还有MPP,MPP主要站在运营商角度,主要想降低成本,因为从小型机到X86,也是从原来的库里面移出来,性能提高了,效果是8倍,数据的压缩率是6倍左右。还有一些流处理的技术,主要想增强实时性,包括刷新的频率更快,主要想保证业务上更加快,做有关的应用,速度能够更快,这是基本的要求。

NOSQI在省里做了一些实时话单的查询,基本95%以上都能把话单反馈。中国移动量比较大,包括我们当年在一个省做的系统规模,IBM出了一个证明,在国际上都是数一数二的。现在Hadoop这种技术,云计算这种技术,对运营商来讲是一次新的机遇。这是一个数据实时获取的场景,最早我们做数据仓库的时候,按照数据仓库的要求,一天,后来我们提高到一小时一次,目前我们的速度能提高到更快,现在一秒能处理九万个话单,这个速度比较快。

刚才给大家介绍的是中国移动在Hadoop相关技术上做的一些研究和探索,后面给大家分享我们在实践过程中有一些思考,跟大家做一个分享。原来我们都是传统的数据库,传统的数据库在大数据环境里面主要面临的问题就是非结构化数据,这是原来数据仓库环境下没有太考虑的,现在这种非结构化数据目前的架构还是以Hadoop这种方式来存储为主。

但是Hadoop在上端这些应用也面临一些问题,像中国移动做的过程中,感觉最大的一个问题就是人员投入太大。举个例子,原来IBM需要一个工程师搞定的一个业务需求,现在起码三四个Hadoop的人,不一定能搞得定。像国企这种模式,这是一个人才密集型的要求,所以国企这种模式怎么去适应,怎么去做相应的调整,都是一个话题。

在目前这种环境,引入了非结构化数据以后,整个大数据系统只能以一种混搭的模式,目前是短暂的这样一个形式来去存在,也是这个原因。现在的架构基本就是合适的技术来处理合适的数据,现在是这样一个情况。包括运维,运维图形化的工具,像原来数据库这方面都是有成熟的运维工具,所以人力相对来说比较容易。Hadoop现在最大的问题,我们发现是学校里没有培养,学校里基本没有教过Hadoop的课程,所以导致人员成本特别高。这是面临的第一个问题。

第二个问题是大数据的安全管控,像运营商手里的数据特别丰富,但是确实牵扯到很多隐私数据。怎么去对这些数据进行安全管控?这是前所未有突出出来了,整个大数据的安全在运营商的周边或多或少出现过一些问题,所以怎么从技术上增强数据安全管控的能力,中国移动探索了十几年,我们在数据方面也是层层设岗,加强安全管控的能力。但是在目前大数据基础技术上,在安全架构包括内核上都很弱,这是我们面临的一个问题。现在中国移动也在开展相关的研究,怎么去做大数据的安全管控,这是我们考虑的一个关键点。

这是我们对外服务方面的一个应用,这是我们江苏省做的智慧洞察的一个应用。大家可以拿智慧洞察做关键词检索,就能看到这个网址,这个是运营商对外服务的形式,提供客户的画像还有位置、行业数据等等相关的一些内容。这是在做的一个工作,还有一个是数据的管控,数据的管控,我现在看到的,很多做大数据的人还没开始考虑,还在第一个阶段,数据收集和整理阶段。

中国移动十年前在做数据的收集和整理,数据管控也是很早就遇到这个问题,很早就通过技术手段想办法去做,做了很多数据质量监控的工作。这个问题很突出,因为现在真正在做大数据的,我看很多内容都没涉及这一块,在企业应用里,你的数据准确度是第一位的,如果数据不准确,没有人会跟你谈数据应用。现在互联网的玩法和国企的玩法可能有很大的差别,互联网是集中的,而且它的业务模式和国企也不完全一样。国企像中国移动是两级的架构,有各省,省里还有地市,它的管理模式对中国的国有企业更有一些借鉴意义。

这是我们过去十几年间干的工作量,海量的工作量,今天时间因素,只能用二十来页的胶片给大家看一下。我们的材料150余册,1200多万字,这是我们写的规范,大数据真正做起来,应该是需要大量的基础工作,包括数据模型的建设,包括数据标准化的建设,包括接口标准化工作等等,实际现在我看到很多圈内的人,很多人还没开始做这个工作。现在大家都是在宣传阶段,但是我们干了15年,这些材料我们每年都要做一次工程部署,每年完成工程的设计,系统的设计等等这些工作。

这是个人出版的一些书,这是05年的时候当时写的一个数据仓库在电信领域的应用,当年为了解决中国移动怎么去建数据仓库,写了两本书,现在为了怎么建大数据系统,我们总结了15年的经验,写了两本书,一个是大数据和大分析,这是人民邮电出版社出版的,这本书第一次提出了大分析的概念。

现在很多人注意力还是在数据的聚合、整理这个阶段,但是真正的价值是在后面的应用,后面怎么去做分析,这是第一次提出大分析的概念。还有一个也是去年另外出的一本书,大数据的互联网思维,这个也是有感而发。

大家做大数据都发现一个问题,大数据没有理论,大数据是实践冒出来的,没有理论。大数据整个业界没有一个大数据系统到底长什么样,应该怎么去做,缺少这方面的理论。我们把互联网思维引进来,包括大数据的产品怎么设计,大数据客户服务怎么做,它的客户应该是什么样的,等等这些方面做了一些思考。这些理念都是在国内首次提出的,这些书里面都有中国移动15年间积累的案例和技术的架构,大家想了解的话,可以通过这两本书去了解。

最后特别感谢,中国移动各界的同仁过去15年间也算是脚踏实地,干了15年,形成了今天一个成果,拿出来用20页胶片,给大家做一个概览。背后是15年的辛酸,很多的内容,包括怎么去做应用推广,内部怎么去做,很多经验积累,这个过程中也是特别感谢整个中国移动各界的同仁,也包括我们周边的合作伙伴。因为中国移动当年是第一个建立起这么一个数据应用的生态环境的,让各个厂商,现在业内比较大的厂商,我了解的应该都算是跟着中国移动服务的厂商都是业界比较大的厂商,都是比较有经验的厂商。

我的内容就这些,谢谢大家!

0 人点赞