大数据发展简介
“大数据”一词据称最早于1980年出现在美国著名未来学家阿尔文·托夫勒所著的《第三次浪潮》一书中,他在书中将“大数据”称为“第三次浪潮的华彩乐章”。在笔者看来,大数据的应用效果主要取决于两部分,一是大数据的技术部分,二是对数据质量和价值有重要影响的数据治理部分,二者应当并重。本书分别介绍下这两条线的发展历程。
(一)大数据的技术部分
被广泛认可的“大数据”概念最初是由著名咨询公司Gartner的高级分析师道格拉斯·兰尼(Douglas Laney)提出的。2001年,兰尼在一篇名为《3D数据管理控制数据量、速度和多样性》指出,大数据管理面临三大挑战:容量、多样性和速度(Volume 、Variety、Velocity ,3V),后来成为大数据的三大基本特征。
现今常说的大数据技术,起源于Google的三篇重量级论文:2003年10月发表的《Google文件系统》、2004年12月发表的《MapReduce:超大集群的简单数据处理》和2006年11月发表的《BigTable:结构化数据的分布式存储系统》。这三篇文章论述了大数据技术的三架“三驾马车”:分布式文件系统GFS、大数据分布式计算框架MapReduce和NoSQL数据库系统BigTable。
2006年,天才程序员Doug Cutting启动了一个独立的项目专门开发维护大数据技术,诞生了大数据技术的经典框架——Hadoop,主要包括Hadoop分布式文件系统HDFS和大数据计算引擎MapReduce。2008年,Hadoop正式成为Apache的顶级项目,Doug Cutting本人后来也成为了Apache基金会的主席[1]。
2008年9月《自然》杂志在推出了名为“大数据”的封面专栏,通过《The Next Google》,《Welcometo petacentre》,《Disillingmeaning from data》等一系列文章,更全面的介绍了大数据。到2009年,大数据技术已经基本成熟,转入大规模应用阶段。实时计算方面,Spark(2009)、Storm(2010)、Flink(2015)等主流技术也先后形成。
2012年,颇具影响力的《大数据时代》一书出版;同年,瑞士达沃斯世界经济论坛上发布了题为《大数据,大影响》的报告;同年,美国颁布了《大数据的研究和发展计划》;同年7月,联合国在纽约发布了题为《大数据促发展,挑战与机遇》的大数据政务白皮书。
2014年,“大数据”首次写入我国《政府工作报告》;2015年,国务正式印发《促进大数据发展行动纲要》;同年5月,首届数博会在贵阳召开,旨在打造国际性的数据产业博览会;2016年2月,国家发展改革委、工业和信息化部、中央网信办同意贵州省建设国家大数据(贵州)综合试验区,这也是首个国家级大数据综合试验区;同年10月,国家在京津冀、珠江三角洲、上海、重庆、河南等七个区域推进国家大数据综合试验区建设。
如今大数据技术早已脱离技术炒作期,成为其他技术的底层支撑,比如人工智能技术。尽管大数据市场依然具有不错的情景,但掀起大数据时代的Hadoop的供应商们,日子却已经很不好过了。全球三大Hadoop开源大数据软件供应商中的Cloudera 和 Hortonworks已经于2018年合并,抱团取暖;另一家公司MapR已经被收购。大数据技术已经从Hadoop推动的第一代向更智能、更实时、面向交互的技术方向转变。
(二)数据治理部分[2]
2002年,数据治理概念首次出现在学术界,美国两位学者发表题为《数据仓库治理》的论文,关于“数据治理”的正式研究就此开始。
2003年,DGI(国际数据治理研究所)成立,研究数据治理理论框架,与ISO国际标准化组织对数据管理与数据治理进行定义。
2009年,国际数据管理协会(DataManagement Association,DAMA)发布《TheDAMA Guide to the Data Management Body of Knowledge》(简称DMBOK),即DAMA数据管理知识体系指南,基本固定了数据治理的理论框架。
我国数据治理的探索是在DMBOK基础上的延展。2015年提出了《数据治理白皮书》国际标准研究报告,2018年发布了《银行业金融机构数据治理指引》,这标志着数据治理在我国银行金融机构中开始落地实践。
从2019年开始,各银行要开始根据监管合规的要求,逐步开展包括数据治理组织架构建设、数据管理专项工作推进、数据质量控制落实、数据应用和数据价值实现,以及自评、审计和监督检查等工作。数据治理已经成为银行的重要工作事项。
[1]引自《大数据技术发展史:大数据的前世今生》,2019-02-14,慕白,慕白博客。
[2]本部分多处引自《银行业数据治理实践难点及应对》,2019-07-23,德勤。
国外银行的大数据应用
国外银行方面应用大数据较为成功的两个企业案例分别来自富国银行(WellsFargo)和美国第一资本(Capital One)。
(一)美国富国银行(Wells Fargo)
美国富国银行(Wells Fargo)是大数据方面较为成功的应用案例。
富国银行是很早就重视数据应用的企业,在1983年就建立了企业级数据仓库系统,但是其数据应用是围绕不同的业务线分别建立的,导致信息难以共享。2010年前后,通过对遗留数据系统的迁移,富国银行逐步实现了企业级数据整合,建立了企业级数据湖。
在数据湖的基础上,富国银行建立了数据集市,所有的数据服务以“Data API”的形式提供调用。这种形式很像最近流行的“数据中台”概念,由此也可见,系统架构设计往往有殊途同归的效果。
富国银行对数据治理工作的重视程度也是业内少有的,将数据战略写入公司战略。该行是最早设置首席数据官(CDO)的银行(2014年),拥有上万名数据方面的技术人员从事数据分析、模型开发工作。2017年,富国银行建立了全行集中的数据运营和洞见团队。目前大数据赋能应用集中在用户体验、用户分析以及风险合规等方面。
(二)美国第一资本银行(Capital One)
作为全美前10大银行中,唯一的非百年老店, 美国第一资本银行(Capital One),在数据应用方面有着独到之处。
Capital One认为“数据和技术将使银行业发生革命性的变化,特别是从信用卡开始”。Capital One将信用卡看作是基于数据的的技术业务,而不是贷款业务。CapitalOne的口号是“建立一家从事银行业务的技术公司,与使用技术的银行竞争” 。这种理念决定了它的与众不同。
Capital One创建了“边测试边学习”(Test-and-Learn)的数据分析方法,基于分析结果改良业务应用。除主营业务外,CapitalOne对客服电话的处理也独具匠心,通过对大量的通话记录进行分析,建立通话模型,识别出客户在信用卡使用哪个阶段中遇到什么问题,从而提前预判客户来电内容,迅速连接到相关人员为客户正确解答问题,大幅度缩短客户通话过程,节省了客户和银行的时间。
国内银行的大数据应用
(一)技术及应用方面
工行在2013年引进了业界最流行的Hadoop技术,在Hadoop基础上搭建了大数据应用。2017年成立大数据实验室,以完善大数据服务云体系为目标,实现总分行数据共享、资源动态调配和海量数据存储,提供离线计算、离线分析、在线读写、实时计算等多元化服务。
农业银行在2013年开始建设完全自主可控的大数据平台,平台采用“MPP Hadoop” 混搭架构建设,MPP分成主库和八大集市。2015年4月7日,生产环境正式上线,可支撑总数据量1.5PB。2016年3月,真正实现MPP与Hadoop融合,构建主仓库MPP集群双活,4套GBase 8a MPP集群共计152节点,总数据量超过2PB。
中行2015年规划进行“Hadoop NoSQL”的大数据平台建设。2018年8月,包含客户画像标签、外部数据应用管理、数据沙箱三大服务体系的大数据平台正式发布,中行也建设了基于海量并行处理(MPP)技术的分行数据服务平台。
建行2016年开始建设大数据智能平台,平台在数据仓库的基础上引入Hadoop技术,打造“MPP Hadoop”的双擎架构。
国内银行大数据应用目前主要集中在客户画像和风险领域,与人工智能技术融合。比如工行的“融安e信”大数据反欺诈系统,2018年帮助客户防范电信诈骗近8万笔、避免客户损失24亿元;建行在普惠金融领域,结合企业及企业主行内外数据,运用大数据技术,建立全新的客户评价体系,截至2019年5月末,建行普惠金融贷款余额超过8000亿元,增速超过30%,不良率较低。
此外,大数据应用也逐渐扩展到其他领域。比如客户关系管理、运营分析、监管报送、资产负债管理、财务管理等。
(二)数据治理方面
国内大型银行近年来也普遍加强了对数据治理的重视,建立了较为完善的数据治理机制,不断加大数据分析人才的引进和培养力度。
工行数据治理工作主要遵从五大原则,即“架构明晰、服务导向、统一管理、持续改善、机制保障”,构建起一个相对完善的数据治理框架体系,涵盖了目标、核心领域、基础设施、配套机制等核心内容,明确了数据标准、数据质量、元数据、数据安全、考核评价、数据认责、数据生命周期、数据分布(也称主数据管理)等八大要素和基本任务[1]。
建行自上而下建立了完整的组织管理和工作机制,以总行数据管理部作为大数据能力建设牵头部门,并组建了大数据智慧中心,作为专门为全行提供大数据应用支持的专业化机构,为总分行各业务部门大数据应用提供全面的数据、分析方法、工具和专业人员支持,协助业务部门共同实现全行大数据战略目标。建行每年组织实施“绿树工程”大数据种子人才培养计划,选拔总、分行骨干人员到大数据中心智慧学习,以集中授课、项目实践双管齐下的形式,培训骨干人员掌握大数据分析工具、技术和方法[2]。
农行在数据问题治理方面逐步探索形成了“监测-整改-跟踪-评价”的闭环管理模式。质量定期监测的目标是收集实际工作中遇到的数据问题,并基于此设置检查点、检查规则来收集数据问题的整体情况;问题整改则是对发现的数据问题实行“清单制”管理,沿着“发现问题-分析原因-落实整改”的路径,持续推进落实;问题持续跟踪通过加强过程管理,持续反复的对数据问题进行考察,推进数据问题的彻底解决;考评机制是指挥棒,通过“横向评价、纵向考核”机制,横向上以质量报告为依据,定期通报各部门主管数据的质量管理工作进展,纵向上以分行数据质量考核为抓手,将质量问题的责任逐级落实到经办行和个人[3]。
中行数据治理工作实践包括数据治理架构、数据标准管理、数据质量管理和数据服务管理四个方面。制订并发布了数据治理框架政策、管理指引和操作流程,明确了包括董事会、高级管理层、会计信息部、总行各业务条线部门、总行各技术部门、一级分行数据管理牵头部门、一级分行各业务条线部门以及一级分行各技术部门在内的全行数据治理架构;形成了不同业务和系统间的数据一致性规范,通过持续多年实施企业级数据模型建模工作,已实现模型项5000余项,陆续发布了34项集团级数据标准及600余项指标标准[4]。
[1]引自《推动数据综合治理 提升数据资产价值》,2017-10-13,苏宗国,金融电子化。
[2]引自《推进大数据应用,实现业务价值创造》,2018-10-12,刘静芳,金融电子化。
[3]引自《夯实基础 加强管控 创新服务——农业银行数据共享服务之路》,2017-10-16,孙建平,金融电子化。
[4]引自《银行数字化转型中,数据治理的挑战与思考》,2018-05-15,刘秋万,金融电子化。引用时略有改动。
关于对银行大数据应用的思考
(一)技术方面
以Hadoop为代表的第一代大数据技术已然十分成熟,功能强大,国内大型银行的大数据平台基础基本上也都是HaDoop框架。而历经十余年之后,开源Hadoop供应商日子已经十分艰难,云架构的大数据框架S3等逐渐显露出更多的竞争优势,后者虽然市场份额仍然较大,但增长已经停止。
据国内知名技术新闻网站InfoQ记者赵钰莹2018年4-5月期间,对国外大数据厂商Teradata及其两大银行客户——富国银行和加拿大皇家银行的采访中了解到,由于管理难、成本高等因素,这两家银行并不看好Hadoop的前景[1]。
Hadoop自身的前景并不等同于大数据技术的前景,它只是反映出了云计算快速发展对前期技术框架的冲击,用户还是希望能够获得价格更低廉、服务更易用的产品。不过,由于国内大银行之前已经在Hadoop上重金投入,预计短期内不会轻易改变其大数据架构。但是从长期看,现有大数据框架还是面临着挑战。
(二)业务方面
国内银行对大数据的应用主要集中在精准营销(含客户画像)和风险管控方面,前者与其在电商领域取得了良好的业务效果有较大关系,后者本身就是数据模型的强项。
这两大领域的成功应用也使银行有意愿将大数据应用范围进一步拓宽,然而,在实际工作中,大数据技术的应用还是具有较高的业务门槛的,尤其是在数据建模方面。在以“暴力”计算方式开展相关性分析的应用模式“冷静”下来之后,对因果关系的重视程度逐渐上升,而这对建模能力的要求更高了。
尽管各大行的大数据战略中都很关注数据分析人才的培养,但是数据分析人才的缺口依然很庞大,正是这些人最终了决定企业应用大数据的结果和竞争力。
国外,富国银行号称有10000多名数据工作人员分布在各个业务条线,推动数据分析的应用,加深数据分析技术与业务之间的融合。
业务与技术的深度融合首先是人的融合。对于规模庞大的国有大型商业银行而言,如果无法改变技术人员和业务人员之间悬殊的比例,就不可能有足够数量的技术人员走到业务中去。做开发项目期间技术人员和业务人员的接触仅能满足实现的要求,而无法真正去深入地用技术推动业务的变革。大数据方面也是同样,没有足够的数据分析人员与业务人员共同在业务环境中思考对大数据技术的应用,也就难以充分发挥大数据的价值。
[1]整理自《国外两大知名银行Hadoop采用现状调查,Gartner所言非虚!》,2018-05-30,赵钰莹,InfoQ
相关文章:
银行的移动端应用
开放银行到底都开放了什么?
银行的云计算应用
FaceBook 都认真发币了,银行区块链到底用的怎么样?
银行的人工智能应用
银行的物联网应用