机器之心报道
机器之心编辑部
从数据采集、数据治理,再到知识挖掘与推理,一个家谱数据中台到底是怎样炼成的?
说起「数据中台」,很多人都不会感到陌生。但究竟如何定义「数据中台」?也许就会难倒一大批人了。
「数据中台」是近年来比较火热的一个技术概念,最早源于国内的科技公司。简单来说,就是利用数据技术对海量数据进行采集、存储、计算、加工、统一表示,形成标准后的数据 API,进而提高数据的共享能力。
目前数据中台的建设尚处于起步阶段, 还没有统一的数据中台建设标准、规范以及评价指标,且没有统一规范的定义,其英文译法也多种多样:Middleware、Middle Platform、Middle Office 或 Platform ,甚至包括中文拼音「Zhongtai」,但这些名字都不能很好地体现其数据共享和数据价值最大化的实质。
近日,来自合肥工业大学、明略科技、北京大学等机构的研究者在《自动化学报》上介绍了关于构建家谱知识图谱的数据中台实践。经过广泛研究,研究者在这篇论文中给出了关于「数据中台(Central-Platform)」的正式定义:
数据中台将一个机构 (企业、事业、或政府部门) 的数据作为战略资产进行管理,是从数据收集到处理应用的一套管理机制, 以期提高数据质量,实现广泛的数据共享,最终实现数据价值最大化。数据中台建设覆盖数据的逻辑管理和物理管理, 逻辑管理包括数据结构的设计和数据之间相关性的分析, 如数据仓库; 物理管理包括数据的存储和检索。
此外,以华谱系统为例,这篇文章整体介绍了关于「数据中台」的定义、功能模块、关键技术、挑战问题以及相应的解决方案。研究者利用知识图谱构建和推理技术,从海量家谱数据采集、汇聚开始,在数据治理、数据开发、数据资产管理等模块建设过程中辅以 「HI」 (人类智能)、 「AI」 (人工智能) 和 「OI」 (组织智能) 三者的交互和协同,创建了一个标准、可复用的家谱数据中台架构。
华谱数据中台的数据管理架构建设和关键技术
下图展示了华谱数据中台的架构 Huapu-CP,我们以该架构为例,来分析一下家谱数据中台系统核心模块的主要技术以及要解决的问题。
图 1:Huapu-CP 框架图。
具体而言,Huapu-CP 数据中台架构特点可分为三个层面:
1) 基于数据的逻辑管理和物理管理,建设了家谱领域数据管理体系,提高数据服务效率,加速数据价值变现过程,打破了信息之间的屏障。
2) 基于 HAO (Human intelligence,artificial intelligence and organizational intelligence) 智能体系,采用数据规范、数据清洗等数据治理技术形成了包括家谱人物数据、人物关联数据、社交数据、日志数据等的数据体系,更好地赋能于华谱系统前台业务。
3) 融合知识图谱技术,以家谱知识图谱作为数据中台架构的数据底座,从业务的角度组织数据。完成传统数据模式无法支持的节点关联分析、社区发现、用户推荐等复杂计算和挖掘任务。
数据的物理管理
首先,从数据的物理管理层面看,Huapu-CP 选择了图数据库集群的方式,将数据分布存储到多个机器上,并进行实时同步,以保障数据的安全性、一致性及性能的可扩展性。如图 2 所示:
图 2:物理管理框架图。
针对图数据规模较大、图数据分析与挖掘耗时较长的问题,通过对大数据计算算法和框架的对比研究,华谱系统采用 Spark 分布式计算框架,在上层应用 (如子图模式查询、同名人物识别) 中,利用图划分算法将原始的图数据拆分为多个子图,基于分布式计算并行处理,以节省整体计算时间、 提高计算效率。
Huapu-CP 的数据采集方式包含 4 种,其数据采集架构如下图所示:
数据采集架构图。
数据的逻辑管理:HAO 智能体系
在数据的逻辑管理阶段,华谱系统将知识图谱技术、专家智能、组织智能等技术融入数据表示、数据治理等子模块中,协调逻辑管理整个流程。
逻辑管理框架图。
Huapu-CP 利用 HAO 数据治理构架进行数据规范、数据清洗、数据交换和数据集成等数据治理工作。
数据治理架构图。
数据安全和隐私保护
除此之外,家谱数据和家谱服务需要一系列资产管理和用户关系管理算法支撑,Huapu-CP 已形成较为完善的算法开发体系。在数据安全和隐私保护上,Huapu-CP 架构也从用户权限管理和应用权限管理两个层面进行了设置。
针对用户权限管理,Huapu-CP 架构中提出了基于图数据库的 「粗细粒度结合」的权限管理方法,并提出了基于 HAO 模型的权限管理闭环架构。
「粗细粒度结合」的权限管理方法。粗粒度表示该用户所拥有的角色,细粒度指针对数据层面的权限管理。
基于 HAO 模型的用户权限管理架构。
如上图所示,基于 HAO 模型的用户权限管理闭环架构的主要流程为: 由领域专家 (HI) 和组织智能 (OI) 设计用户的权限体系, 由人类专家 (HI) 审核后在权限控制中心提供接口, 最后基于日志的智能分析 (AI) 提供权限调整方面的反馈, 并再由 HI 或 OI 审核、优化 。其中, 为了实现闭环权限控制,系统应实时地采集、存储用户行为数据和用户操作数据,并设计智能的日志分析算法。
针对应用权限管理,研究者通过设置应用读取数据的权限,避免恶意修改读取数据程序而导致的数据泄露问题; 同时,加入 HAO 模型实现应用权限管理的闭环,便于应用的改进和升级。
在 Huapu-CP 架构中,开发新应用的权限管理流程如下: 首先,由于每个应用只需部分数据的读取权限,为了系统中数据资产的安全性与隐私性, 应限制数据访问权限为该应用所需的最小集合。因此,「HI」与 「OI」可基于该应用的实际需求设计该应用所具备的最大权限集合。其次,由于应用的需求可能存在变化, 该应用交付使用后可针对用户行为数据分析或用户反馈数据分析 (AI) 得出该应用改进方向和内容, 反馈至专家 (HI) 和组织 (OI) 重新设计应用权限, 形成权限管理的闭环。
Huapu-CP(https://www.zhonghuapu.com/)对数据中台建设进行了一个成功的尝试,目前已有千万级数据节点,能提供秒级数据服务。但数据中台技术尚处于起步阶段,还面临着技术不成熟、框架验证标准不一、技术人员缺乏等困难和挑战。新一代的数据中台技术,在融合数据的基础上,更需要关心是否能够很好地沉淀行业知识。研究者表示,知识图谱技术相对于传统的二维表使用图描述实体与关系,其复杂的图结构更有利于探索数据之间的关联关系和获取知识。
本文为机器之心报道,转载请联系本公众号获得授权。