一 数据是数字化转型的基础和引擎
数据湖是支撑企业数字化转型的数据底座,是提供数据驱动、精准决策的全方位技术支撑。
数据价值将经历数据统一化、数据资产化、数据业务化、数据生态化四个阶段。
二 数据底座的新架构
1.数据仓库
通常是业务发展到一定规模后,业务分析师、CIO、决策者们,希望从大量的应用系统、业务数据中进行关联分析,最终得到“干货”出来。比如为啥利润会下滑?为啥库存周转变慢了?向数据要答案,生成报告、图表出来给决策层汇报,辅助经营决策。可是,数据库“脑容量不足”,擅长事务性工作,不擅长分析型的工作,于是就产生了数据仓库。数据仓库相当于一个集成化数据管理的平台,从多个数据源抽取有价值的数据,在仓库内转换和流动,并提供给BI等分析工具来输出干货。
2.数据湖
数据湖(Data Lake)是一个存储企业的各种各样原始数据的大型仓库,其中的数据可供存取、处理、分析及传输。数据湖的本质是由“➊数据存储架构 ➋数据处理工具”组成的解决方案。
一类工具,解决的问题是如何把数据“搬到”湖里,包括定义数据源、制定数据访问策略和安全策略,并移动数据、编制数据目录等等。
一类工具,就是要从湖里的海量数据中“淘金”。数据并不是存进数据湖里就万事大吉,要对数据进行分析、挖掘、利用,比如要对湖里的数据进行查询,同时要把数据提供给机器学习、数据科学类的业务,便于“点石成金”
数据仓库可以是独立的标准化产品,数据湖则是一种架构,通常是围绕对象存储为“湖底座”的大数据管理方案组合。
3.湖仓一体
湖仓一体架构最重要的一点,是实现“湖里”和“仓里”的数据/元数据能够无缝打通,并且“自由”流动。湖里的“新鲜”数据可以流到仓里,甚至可以直接被数仓使用,而仓里的“不新鲜”数据,也可以流到湖里,低成本长久保存,供未来的数据挖掘使用。
4.数据中台
数据中台:数据中台是聚合跨域数据,对数据进行清洗、转换、整合,实现数据标准化、集成化、标签化,沉淀共性数据服务能力,以快速响应业务需求,支撑数据融通共享、分析挖掘和数据运营,创造业务价值。
中台战略核心是数据服务的共享。数据中台是围绕向上层应用提供数据服务构建的,中台战略让数据在数据平台和业务系统之间形成了一个良性的闭环,也就是实现应用与数据之间解藕,并实现紧密交互。数据中台建立后,会形成数据API,为企业和客户提供高效各种数据服务。数据中台整体技术架构上采用云计算架构模式,将数据资源、计算资源、存储资源充分云化,并通过多租户技术进行资源打包整合,并进行开放,为用户提供“一站式”数据服务。
数据中台不是一套软件,也不是一个信息系统,而是一系列数据组件的集合,企业基于自身的信息化建设基础、数据基础以及业务特点对数据中台的能力进行定义,基于能力定义利用数据组件搭建自己的数据中台。
三 数据底座设计
1.数据湖功能架构
2.数据流转架构
由统一的租户(企业集团层面)进行数据的归集,并加工成标准统一的数据集或指标。基于租户权限自动将数据分发给相应的租户。各租户无需重复进行数据集成和加工,一般是1 N模式的企业组织架构,如一个集团,N个不同地域但相同业务属性的子公司。
1 N数据湖体系:1个数据湖,N个租户、N个数据仓库、N个数据集市、N个数据创新实验室。
3.数据入湖流程
四 数据底座的数据治理
聚焦“战略指导、组织机制、专项能力、技术支撑”四层建设,为企业数字化转型提供稳定数据保障基础。
1.统一的数据管控平台
数据管控管控服务,集成数据标准、数据质量、数据安全等全方位数据治理能力。
主要能力:
数据标准:数据标准编目、录入、发布、贯标、落标全方位能力提供。
落标检查:通过贯标流程,执行标准落标检查,赋能数据标准落地,实现贯标成果。
数据质量:以SQL形式灵活构建数据质量检查规则,高效检测数据质量缺陷。
质量模板:参数化的模板形式,复用质量规则,解决质量规则构建低效、繁杂的痛点。
质量报告:可视化展示数据质量检查结果,多维度展示质量问题。
数据权限:以最细粒度管控至行列级权限的全方位数据权限管控,保证数据使用安全。
数据保护:结合智能化手段和咨询方法论,妥善处理敏感数据,保护数据隐私。
2.数据资产目录
统一的数据资产目录,实现全局数据资产统管,对外提供数据资产服务。
主要能力:
元数据:自动化采集多元异构数据库资源列表详情,提供全局元数据服务。
数据血缘:自动化采集数据血缘关系,提效数据溯源和故障定位。
数据特征:分析数据资产全方位信息视图,赋能用户高效数据探查。
数据推荐:通过协同过滤算法,精准推荐用户需要的数据资产。
相似性分析:基于数据相似性来实现数据资产的智能匹配,赋能自动标签、自动落标
数据地图:数据地图门户,支持可视化、层级化展现全局数据资产,根据数据探查需求进行下钻、分析。
数据搜索:提供高性能全局数据资产搜索,帮助用户快速获取目标数据资产。
资产关联:提供标签、描述、关联数据标准和其他数据资产的方式丰富资产视图。
3.数据安全
《中共中央国务院关于构建更加完善的要素市场化配置体制机制的意见》提出:加强数据资源整合和安全保护。探索建立统一规范的数据管理制度,提高数据质量和规范性,丰富数据产品。研究根据数据性质完善产权性质。制定数据隐私保护制度和安全审查制度。推动完善适用于大数据环境下的数据分类分级安全保护制度,加强对政务数据、企业商业秘密和个人数据的保护。
隐私计算使数据在加密状态下可以计算,安全性和准确性由数学理论保证,无需提供可信第三方、平台硬件以及操作系统。
五、数据服务能力
1.能力构成
(1)数据API
通过API为各个应用提供数据接口,打通应用之间的数据流转,构建新型应用。
(2) 数据标签平台
为业务部门直接提供有业务语义的高质量数据生产资料。
(3) 数据交换共享平台
为各个不同的部分提供有业务语义的数据搜索与共享能力,打通数据孤岛,构建业务协同效应。
(4) 数据报表平台
提供可视化报表的开发与分享能力,从数据统计中发现数据价值。
(5)数据科学平台
提供数据建模、模型运行、模型服务发布等能力,帮助数据分析师构建端到端的机器学习开发与运行能力。
数据API服务开发、发布、调用管理与监控统计的数据服务平台;将多样的数据转换为业务应用直接使用的数据资产,打通数据与业务,完善企业数据中台建设;数据API服务开发、发布、管控。
标签建设开发、生命周期管理、标签应用为一体,支撑企业差异化的标签画像服务和运营需求;通过标签开发、管理、更新、监控、用户画像赋能企业更好的洞察客户需求、防控业务风险、提高服务质量和效率。
数据交换共享平台支撑企业数据共享交换的基础性互联互通平台。促进数据交易,实现企业内外部跨层级、跨系统、跨部门的数据共享和业务协同提供基础支撑。包括:数据资产发布管理、数据资产统计分析、数据资产编目管理、数据资产共享管理、数据资产数据安全管理、数据资产流程与审核管理、数据资产检索管理。