2022云栖大会:东数西算理论在云原生数据库的实践
东数西算
数字经济时代,数据是最重要的要素之一,“东数西算”是数字经济时代的“南水北调”。 “东数西算”简单来看,即将东部海量数据,通过全国一体化的算力网络输送到西部,解决东西部对数据处理需求和供给的不平衡问题。背后深层次来看:
- “东数西算”一方面是实现了数据的市场化配置。
- 另一方面则是在数字经济时代,帮助缩小东西部经济的地域差异,可以比肩为数字经济时代的“南水北调”。
东数西算由全国部署的算力中心构建算力网络(TCP/IP)提供公共算力服务,利用西部较好的自然条件优势为东部的大量数据提供算力服务。东数西算将改变未来中国算力的格局,也旨在解决了东部数据普遍存在的“数据孤岛”现象。
建设历程
- 2022年2月,据国资委网站,中国联通明确新战略,全面承接国家“东数西算”工程,制定了《建设新型数字信息基础设施行动计划》和《算网融合发展行动计划》。
- 2022年2月17日,从国家发改委获悉,国家发改委、中央网信办、工业和信息化部、国家能源局联合印发通知,同意在京津冀、长三角、粤港澳大湾区、成渝、内蒙古、贵州、甘肃、宁夏等8地启动建设国家算力枢纽节点,并规划了10个国家数据中心集群。至此,全国一体化大数据中心体系完成总体布局设计,“东数西算”工程正式全面启动。
- 2022年2月19日,腾讯云、阿里云、快手等表示,已经在“东数西算”算力枢纽节点地区布局或投产了数据中心。
- 2022年5月,媒体报道,“东数西算”京津冀国家枢纽节点建设在天津正式启动。
- 2022年6月,“东数西算”黄河流域生态环境算力中心正式启动建设。
- 2022年9月,《东数西算下新型算力基础设施发展白皮书》发布,这是我国“东数西算”战略实施以来,首部算力设施白皮书。
- 2022年9月26日,国家发改委发布会,“东数西算”工程,8个国家算力枢纽节点建设方案均进入深化实施阶段,起步区新开工数据中心项目达到60余个,新建数据中心规模超过110万标准机架,项目总投资超过4000亿元。
- 2022年10月8日,“东数西算”八大枢纽节点间的算力网络及调度平台建设战略合作签约仪式举行。
- 2022年10月13日消息,“东数西算”成渝枢纽节点建设添新动能,重庆嘉云智能算力中心落户两江新区水土新城。项目建成后还将作为云下科技西南总部运营中心,承载成渝、西南核心区域的业务运营任务。
类比“南水北调”、“西电东送”和“西气东输”,可以预见的是,“东数西算”项目 建设周期将是数十年的长线工程,同时作为重资产投资项目,投资体量或在数千亿级别, 对相关土建、5G 网络建设、IDC 数据中心、绿电等新基建行业上下游有巨大的拉动效应。
价值体系
“东数西算”具有经济和生态的双重意义,围绕数字化、绿色化,关注科技和绿色两条 投资主线。 经济层面,具有重资产投入、投资链条长的巨大拉动效果。借鉴“南水北调”、“西电东送”、 “西气东输”的投资拉动,在当前强调稳增长的背景下,“东数西算”工程作为重资产投入、投资链条长、且对西部进行区位性拉动的特点,能够对经济带来巨大的拉动效用。
生态层面,能达到绿色减碳目标。数据中心具有高耗能的属性,通过“东数西算”将数据中心放置在清洁能源丰富的西部地区进行集约化管理,能够实现绿色减碳的目的。实际上, 在提到“东数西算”的政策文件中,也都强调了绿色、节能的要求。
云原生数据库
2022-阿里云-云栖大会-云原生数据库峰会中指出数据库未来发展方向为:云平台化、数据平台化、一站式管理化。其中导致数据库变轨的重要因素包括:
- 数据库本身、数据模型
- 底层体系架构的变化
- 应用需求的驱动
为进一步推动云原生数据库发展和进步,中国人民大学明理书院院长、中国计算机学会理事及数据库专委会资深委员杜小勇专家指出了跨域数据管理的方案。
跨域数据管理
跨域数据管理的特点是一种“跨域的”,“高效的”,“安全的”数据共享与协同。其包含了如下三个方面:
- 跨空间域数据管理(数据通信 --> 不确定性网络)
- 跨管辖域数据管理(数据建模 --> 异构模型融合)
- 跨信任域数据管理(安全隐私 --> 隐私计算)
跨域数据管理数据管理数字中国、算力网络打破数据孤岛,数据要素流通高效、安全经济地社区、处理、存储、使用数据大部分局限在域内(企业、业务、数据中心等)
跨空间域应用示例
使用“三地五中心”的分布式架构,可以让每个中心都支持自己的业务。受广域网“黑盒”特征的影响,让跨域数据传输呈现出了不确定性。
跨空间域数据管理的特征
- 时延更高
- 抖动更大
因此,如何实现跨域分布式管理成为关键,同样跨空间域数据管理也面临了如下的挑战:
- 存储管理:避免跨域数据访问 -> 数据分区布局
- 静态分区布局:Squall,Horticulture
- 动态分区布局:DynaMast,MorphoSys,Star
- 查询处理:减少数据传输量 -> 近数据计算
- 算子下推:Oracle,Exadata,IBM Netezza Machine,BrittonLee IDM 500
- 缓存:Snowflake,Redshift Spectrum
- 事务处理 -> 协议优化
- 减少传输次数:TAPIR,G-PAC
- 减少数据传输量:PolarDB,Arura
- 降低服务执行不确定概率:PLANET
主要的目标仍为将不确定性网络转化为确定性网络。
跨管辖域数据管理
跨管辖域数据管理的内涵
上世纪80年代,为解决公司并购后的数据共享,数据库领域提出了联邦数据库。 2010年代至今,跨部门政务数据共享、企业数据中台等场景进一步催生了跨管辖域数据管理问题,呈现出数据模型异构、数据语义各异等性特征。
跨管辖域数据管理的挑战
- 面向异构数据的统一高效查询
- 统一:针对异构数据,提供统一查询接口
- 高效:面向多类负载,自适应地优化性能
跨管辖域数据管理技术进展
- 统一查询:多存储数据库(PolarStore)
- 松耦合多存储数据库:BigIntegrator,Forward,QoX
- 紧耦合多存储数据库:Polybase,HadoopDB
- 质量提升:人在回路数据融合
- 质量控制:CrowdDB,Qurk,CDB
- 成本控制:Data Tamer,Data Civilizer
- 高时效:流程算法优化
- 减少标注规模:DataPerf,Snorkel
- 优化流程路径:AutoML,Microsoft Codex
跨信任域数据管理
跨信任域数据管理的概念
企业、组织或机构以安全保护为目的星辰的相对独立的域被称作为信任域。每个信任域爆了不同的用户、网络资产、数据对象。
跨信任域数据管理的问题
在信任域中存在这样一条闭环:可信共享、隐私保护、安全计算。闭环中的每一个对象都存在着不可忽视的问题需要管理者去解决。
其中跨信任域数据管理的技术路线又分如下三步:
- 事前:基于访问控制的可信主体识别
- 跨域用户访问:Access Control Models,MAC,Role-BAC,ABAC,TBAC,DAC
- 事中:基于只能合约的数据处理、面向隐私保护的数据计算
- 基于密码学、基于新硬件、基于统计学的管理模式
- 如约履行合约检查模式
- 事后:面向数据安全的审计
隐私保护技术分类及代表性系统
- 基于密码学
- 2010-2015 安全多方计算:无可信第三方情况下的安全计算
- Obliv-C、Sepia
- 2011-2022 同态加密:允许对密文进行特定形式的代数运算
- CryptDB、SEAL、OpenFHE
- 2010-2015 安全多方计算:无可信第三方情况下的安全计算
- 基于新硬件
- 2011-2020 新型硬件TEE:硬件和操作系统层面提供的可信执行环境
- 阿里云Link TEE、ARM、Trustzone、Intel SGX
- 2011-2020 新型硬件TEE:硬件和操作系统层面提供的可信执行环境
- 基于统计学
- 2020-2021 差分隐私保护:描述数据统计特征而不公开个人信息
- PipelineDB、OpenDP
- 2020 联邦计算:多源异构数据存储系统的联合查询范式
- Rosetta、PFL
- 2020-2021 差分隐私保护:描述数据统计特征而不公开个人信息
总结与展望
- 数据要素跨域的、高效的、安全的共享与协同,催生了跨域数据管理
- 跨域数据管理的内涵:跨空间域、跨管辖域、跨信任域
- 跨域为数据管理带来了全新的挑战
- 通信层面,数据管理面型跨空间域的挑战,体现为不确定性网络的问题
- 数据建模层面,数据管理面临跨管辖域的挑战,体现为异构模型融合的问题
- 安全隐私保护层面,数据管理面临跨信任域的挑战,体现为隐私计算的问题
- 未来已来
- 东数西算和全国一体化数据中心提供基础设施
- 确定性网络、人在回路数据融合、新型硬件TEE等新技术持续演进
- 数字经济蓬勃发展