在 7 月 28 日的袋鼠云 2022 产品发布会上,基于对现在与未来的畅想,袋鼠云产研负责人思枢正式发布了全新的四大产品体系。
其中的数栈 DTinsight,相信大家都很熟悉了,不同于数驹这位新朋友,数栈作为袋鼠云和大家经常见面的 “老朋友”,在保持初心的同时,这次也有了一些不一样的变化。
作为袋鼠云打造的一站式大数据开发与治理平台 —— 数栈 DTinsight,包括离线数据开发、实时数据开发、数据服务、数据资产四款产品,在数据采集、加工、统一服务的基础上,将全域数据资产汇聚、数据治理融合其中,极大地缩短了数据价值的萃取过程,提高企业提炼数据价值的能力。
以下为思枢演讲全文:
接下来我来为大家介绍一下 “老朋友” 数栈 DTinsight,如何面向数据提供一站式数据开发与治理能力,帮助企业实现数据价值呈现。
一、惊喜变化 数栈全新起航
早期企业在进行数据价值化建设过程中,为了更好的服务上层业务需求,从业务需求出发,驱动后端业务系统及对应数据库建设,这在一定程度上满足了上层业务需求。但随着业务需求的增多,业务复杂性的增加,相关的问题也暴露了出来:如超过 TB 级以上海量数据的分析能力差,各个业务板块数据进行融合分析难度高,面向多变市场的灵活性业务需求难满足等。
原有的基于业务需求快速迭代开发而形成的烟囱式业务系统,无法满足当下数字化场景需求,迫切需要一个能够处理多源异构数据源、PB 级数据存储、强大分析引擎、标准数据规范,且灵活便捷的全新 “系统”,而数栈 DTinsight 也由此而生。
数栈 DTinsight,对标一站式数据开发与治理,在面向多源异构数据源时,通过数据汇聚能力实现全域数据打通,而后通过数栈多年经验形成的数据治理方法论,在数据开发过程中,形成数据资产,完成数据治理工作,并通过数据服务能力,将高质量的数据高效共享,为报表分析、决策分析等提供数据支撑,赋能各行各业。
在整个过程中数栈聚焦数据问题,打通数据链路,将全域数据资产汇聚,统一数据治理融合其中,缩短数据价值的萃取过程,增强企业提炼数据价值的能力,为企业提供一站式解决方案。
请大家看数栈的产品架构图:
在数栈整个产品的设计过程中,主要分为四大模块,分别是用于批任务的离线开发平台、用于实时任务的实时开发平台、用于数据治理的数据资产平台、用于数据服务的数据共享服务平台。
整个数栈通过集成自研的数据集成框架 ChunJun 对接 30 异构数据源,包括传统的关系型数据库、NoSQL 数据库 HBase、文档数据库 MongoDB、国产数据库达梦等,将数据统一存储在数驹或其他大数据平台,包括开源 Hadoop 体系以及商业版 CDH、TDH、FI 等,也可以存储在数仓引擎中包括 GP、TiDB 等,而后在这之上开展基于 DataOps 理念的数据价值化流程。
同时数栈各个板块基于解耦化的设计,能够基于客户需求灵活搭配,如离线 API 完成传统数仓体系搭建,离线 资产 API 构建数据治理体系,实时 API 构建实时数仓等。
在这里也重点讲下数栈在 DataOps 理念下的实践。DataOps 是一种协作式数据管理的实践,致力于改善组织中数据管理者与使用者之间数据流的沟通,集成和自动化。
数据开发同学在完成一个 ETL 任务的过程中,一般需要经过数据源的准备 — 数据同步 — 数据检查 — 数据处理 — 数据校验 — 数据分析这 6 个步骤。在这过程中:
● 持续开发
数栈提供了 SQL IDE、Gitlab 等开发工具,来支持敏捷的数据开发任务;
● 连续测试
数栈提供丰富的 sql 测试集和性能测试,达到保障数据准确性的作用;
● 持续部署
数栈提供一键式测试任务到生产任务的发布和大规模工作流的自动化编排;
● 数据治理
数栈提供元数据的自动化生命周期管理和全链路的数据血缘解析。
二、五大特性 数栈核心理念
说了这么多,接下来重点聊聊数栈的产品特性,主要包含以下几点:
● DataOps
基于 DataOps 设计理念,数栈实现了数据全生命周期的质量监管和数据开发流程规范,为数据治理保驾护航;
● 数据还原
数栈不仅仅能够实现数据实时同步,也能实现源端数据结构到目的端的实时还原,真正做到数据复现,完整统一;
● 金融级安全
数据的全域打通在加快了数据价值化呈现进程的同时,也放大了数据安全隐患问题。数栈基于系统安全、数据安全、服务安全和行为审计四大维度,实现数据安全管控,操作有迹可循,避免数据泄露,保证数据安全高效地共享服务;
● 全域数据治理
通过打通数据壁垒,建立基于统一数据标准和数据模型,监控数据质量,形成高质量的数据资产,为上层业务提供便捷的数据服务,并能生成质量报告,不断优化数据,持续赋能数字化场景;
● 兼容开放
数栈秉承开放兼容的设计理念,兼容多种底层计算引擎包括开源 Hadoop 体系、商业 Hadoop 版本和多种数仓引擎,在国产信创道路上兼容多种国产操作系统、国产数据库、国产服务器以及国产芯片。同时本着基于开源回馈开源的思想,数栈也将核心组件进行了开源,包括数据集成框架 ChunJun、百万级调度引擎 Taier。
三、赋能业务 数栈应用场景
说完产品特性,接下来通过介绍三个数栈的实际应用场景,以点及面地帮助大家更好得理解数栈。
数栈 X 金融场景
我们都知道随着移动 APP 的兴起,我们的金融交易不再局限于银行柜台,通过手机就可以实现各种各样的金融活动,这加大了金融交易的安全隐患,社会上因金融诈骗而被骗取钱财的新闻屡见不鲜。如何保证在海量金融交易过程中,进行金融交易行为的风险评估,保证消费者的权益是时下金融客户急需解决的问题。传统的数据分析模式,因数据标准不统一、数据质量差,导致数据分析逻辑复杂,耗时周期长,无法做到及时反馈结果,等发现时已为时已晚。
袋鼠云帮助金融客户借助数栈一站式数据开发与治理的能力,汇聚金融各种交易数据,构建金融的实时数仓,实现数据分析的毫秒级响应,让消费者在享受金融交易便捷性的同时,无感分析交易风险,避免金融诈骗等高危操作,同时对交易行为进行实时推送、异常行为实时预警,助力安全金融的构建。
数栈 X 水务场景
我们知道在夏季,一些河流较多的城市容易发生洪涝,一旦降雨增多,还会附带泥石流等灾害因素,对应的各级政府在雨季对于洪涝抢险救灾一向是时刻关注。但传统的监控无法做到精准的灾害预警和灾后的应急响应,造成大量的国家资产损耗,甚至是人员伤亡。
袋鼠云数栈基于河流以及环境监测数据等,制定事前、事中、事后三步走策略,通过事前实时监测,包括降雨、水位等,实时将数据反馈到监控大屏中;然后在事中进行实时预测,包括降雨预测、灾害预警等,将未来可能发生的事情实时展示到大屏中,为灾害做好预防准备,及时通知人群疏散,最大程度避免人员伤亡;最后实现事后响应,对当前灾情进行统计分析,为抢险救灾提供数据决策支撑,合理调配人员安排,最大程度避免国家财产损失。
数栈 X 集团港口场景
对于一个港口而言,货物吞吐量是衡量港口能力的一个因素,如何最大化提高港口货物吞吐是所有港口一直在思考的问题。传统的港口调度因各个区域的职责所属,无法感知全港口的货物走向,只能基于自身区域进行人员的调配和车辆的调配,实现区域内的 “局部最优”,某种程度上提高了港口的货物吞吐量,无法实现 “全局最优”。
袋鼠云数栈从全港口角度出发,打通全港口数据信息,感知全港口货物走向,了解各区域货物吞吐速率,针对 “拥挤” 区域,进行资源倾斜和人员调配,同时感知 “未来货物” 量,及时做好资源准备,最大程度上提高全港口的人员与车辆调度能力,实现港口货物吞吐量的最大化,让 “信息化” 港口升级为 “智慧化” 港口。
四、不忘初心 数栈砥砺前行
从 2016 年推出数栈算起,一晃眼,数栈已经走过了第六个年头,未来数栈将继续秉持初心,在不断打磨自身的同时,追求更深层次的突破。
未来规划
・资源分配:从传统的定值设定,到结合任务负载,进行精细化参数调节,实现更加高效的资源利用。
・数据共享:建立按需共享模式,实现企业内的跨业态、跨部门的经验分享,沉淀企业内的数据知识库,满足更高的数据共享需求。
・数据监控:实现自动化干预数据,根据每日的任务运行情况等多维度信息建立系统自诊断能力,及早预测、发现、干预数据问题,变被动为主动。
・数据校验:实现智能化规则创建,自动扫描 SQL 和表信息,获取不合规因素,自动建立合理的数据校验规则,降低手动配置工作量。