前言
本文是个人在从零搭建部门数据及运营平台的过程中的笔记。随着互联网规模不断的扩大,数据也在爆炸式地增长,各种结构化、半结构化、非结构化数据的产生,越来越多的企业开始在大数据平台下进行数据处理。
本文借鉴了众多网络上公开的案例和实践。旨在为大家提供建设一站式的数据平台的思路。
一站式大数据平台,应该提供数据抽取、数据清洗、数据存储、数据分析、数据共享一站式全流程数据治理,以及数据安全、运维监控等管理。使用户能够更有效地利用数据构建核心系统,加速业务创新。
我们期待的一站式数据平台应该包含:
- 一站式数据治理:提供数据仓库的构建,多样化抽取任务调度配置,实现业务数据/实时数据抽取清洗,并入库到数据仓库。同时,提供数据仓库数据高效的检索,满足数据的多样化查询需求。
- 数据血缘分析:数据血缘分析是保证数据融合(聚合)质量的关键环节,通过血缘分析实现数据融合处理的可追溯。同时,可分析数据的数据价值。
- 智慧数据目录:数据资产目录提供自定义目录编目、标签系统、资产快速检索,同时支持用户搭建全局知识库,沉淀业务理解。
- 数据可视化:产品将图形语法产品化,用户无需掌握编程,简单拖拉拽即可进行可视化分析
- 数据隐私:针对些敏感信息通过脱敏规则进行数据的变形,实现敏感隐私数据的可靠保护
我们用网易易数官网的典型架构图进行说明:
图中从数据采集、存储、开发和业务支持提供了一站式的服务。并且在此之上支持了以下的数据产品:
下面是几个典型的一站式数据平台的实施方案:
微众银行一站式大数据平台建设方案
微众银行基于海量数据、数据孤岛等痛点,微众银行的业务模式要求大数据平台解决方案必须:
- 支持海量数据
- 一站式的数据存储和用户体验
- 符合金融级别的可靠性、安全性的要求
- 自主可控
- 低成本
在明确大数据平台的目标和要求之后,微众银行形成了一个基于大数据生态的套件平台 WeDataSphere,整体架构图如下:
在方案中,所有的计算和存储引擎进行了统一,上层的应用开发工具,微众银行全部进行了自主研发。首先解决了存储的统一;其次面对众多计算的客户端,在解决计算的统一入口和调度上,银行自研了大数据领域的计算中间件 Linkis。
通过隔离基础的存储计算引擎和应用客户端,统一解决了每个客户端和应用都要面临的问题,包括权限管控,多租户隔离,多引擎支持,以及计算资源的弹性扩缩容。并且,进一步通过 Linkis 中间件,把不同客户端之间的数据交互和批量依赖打通,真正能够给业务用户一站式的大数据应用的服务,所有的工具都可以连接起来,并且共享用户权限,用户定义的变量,用户定义的函数,大大提高了数据应用的开发效率,和运维效率。
整个平台的运维和管理是集成在 Managis 这个组件中的,在这个组件里面完成了所有底层、工具和自研组件的运维工作,同时,汇总了监控信息,集成了集群的部署和扩缩容,以及自动化的故障处置。
微众银行的大数据平台支撑的银行业务场景包括:
在这套方案下,WeDataSphere 已经完全支持了生产型的数据类应用,从离线的风控分析,到实时在线的反欺诈,交易查询,运营查询,批量的对账,监管报送等等。
而对于数据仓库类的应用,微众银行也是基于同样的方案,支持了经营分析,客户画像,模型训练,尤其兼容了银行风险类业务人员最熟悉的 SAS 的软件的使用习惯,自研了 QuickML 平台,切换了风险用户 SAS 的使用场景到自研的大数据探索平台上。
贝壳一站式大数据开发平台实践
贝壳的一站式数据开发平台经历了多次迭代,目前已经形成了集数据管理、集成、调度、质量、对外开放的综合式平台。
数据管理实现了统一的元数据模型、资产化管理、贯穿整个生命周期。提供了数据录入、导航、搜索和生命周期管理。
数据集成把未接入的数据能快速的集成到大数据平台。已经支持的数据源类型包括 MySQL/Oracle/SQL Server/TiDB/MongoDB/Kafka 等等 。现在可以满足 99%以上的一些业务数据接入场景。接入能力以配置的方式自动化实现。
在数据质量方面,贝壳实现了完善的任务监控、报警功能。并且整个平台向外提供了数据订阅、交换、指标等功能。未来在数据资产化管理,加密脱敏等方面会继续完善。
爱奇艺一站式数据中台建设
爱奇艺数据一站式数据中台是基于以下这些数据工作的一些痛点而诞生的。
在爱奇艺数据中台的实施过程中,划分出了三个大方向:
- 生产,也就是我们所说的投递体系
- 数据,也就是统一数仓的体系,是数据的核心
- 大数据平台能力:包括开发、治理、服务
整体架构大致如下:
爱奇艺一站式数据中台在五个方面着重进行了建设:
- 开发:数据开发的平台化、可视化,降低开发门槛,提升开发标准化;
- 运维:方便用户管理任务,稳定性和时效性有效监控;
- 质量:提供质量校验,避免质量问题;
- 治理:数据和任务审计,数据血缘监控。
爱奇艺一站式数据中台的应用场景,提供不同的接入方式:
总之,数据科学发展至今,已经由原来的单纯的数据仓库建设、开发平台建设走向了混合一体的架构。
像文中开始提到的:一站式大数据平台,应该提供数据抽取、数据清洗、数据存储、数据分析、数据共享一站式全流程数据治理,以及数据安全、运维监控等管理。才能使用户能够更有效地利用数据构建核心系统,加速业务创新。