美团酒旅数据治理实践案例分享

2022-07-12 13:42:10 浏览数 (1)

导读:本文主要介绍了美团酒旅数据治理的历程和实践经验,以及业务发展各个阶段中数据体系遇到的问题和解决方案,最后探讨数据治理在现阶段的建设思路和发展方向。

01

背景介绍

为什么要做数据治理?笔者个人的理解是,从数据产生、采集、生产、存储、应用到销毁的全过程中,可能在各环节中引入各种问题。初始发展阶段,这些数据问题对我们的影响不大,大家对问题的容忍度比较高。但是,随着业务发展数据质量和稳定性要求提升,并且数据积累得越来越多,对一些数据的精细化要求也越来越高,就会逐渐发现有很多问题需要治理。

1. 需要治理哪些问题

数据治理过程中哪些问题需要治理?总结了有五大类问题:质量问题、成本问题、安全问题、标准化问题、效率问题。

2. 美团酒旅数据现状

主要面临的问题有:标准化的规范缺失、数据质量问题比较多、成本增长非常快、数据安全的控制、数据管理和运维效率低。

02

治理实践

数据治理的内容划分为几大部分:组织、标准规范、技术、衡量指标。整体数据治理的实现路径是以标准化的规范和组织保障为前提,通过做技术体系整体保证数据治理策略的实现。同时会做数据治理的衡量体系,随时观测和监控数据治理的效果,保障数据治理长期向好发展。

1. 标准化和组织保障

管理委员会是一个虚拟的组织,主要组成是技术部门和业务部门,技术部门是业务数据的开发团队,业务部门是业务数据的产品团队,这两个团队作为实现的负责人,各自对接技术团队和业务团队。

2. 技术体系

① 数据质量,数据质量是数据质量中最重要的一个问题,现在数据治理的大部分问题都属于数据质量。这里有四大问题:

  • 数据仓库的综合性比较差,虽然有一些规范文档,但更依赖个人理解去执行。
  • 数据一致性问题多,主要表现在数据指标的管理上。指标管理以前在文档中定义指标,没有系统化的统一管理逻辑和查询逻辑。
  • 数据应用非常多,使用数据的方式包括数据表同步、接口消息推送、OLAP引擎查询等,不能保证数据应用端的数据一致性。
  • 产品非常多,业务数据产品入口有十多个,没有统一的入口,也没有人对这些产品统一把关,导致数据应用和使用方式有很多分歧。

数仓建模规范

事前会有标准化文档给大家提前理解、宣贯,事中很多标准化的事项会通过配置化自动约束规范,事后会有上线时的检验和上线后每周定期检验,检验数据仓库的建模规范是否符合标准,把不符合标准的及时提示出来、及时改进。

统一指标管理系统

指标管理系统化主要做了流程管理标准化、指标定义标准化和指标使用标准化。

统一数据服务

建设统一的数据服务平台,目标是提高效率、提高数据准确性、提供数据监控、将整个数据仓库和数据应用链路打通。提供的方式有两种,一种是对于B端应用,提供按需使用,每天提供几万次的调用额度;一种是对于C端,通过推送的方式,比如每天推送一次最新数据。

统一用户产品入口

通过数据仓库的统一建模、数据指标管理保证了三大类底层数据集市的一致,从而保证了所有数据的一致性。

整体系统架构

整体的技术架构分为三层,从统一数据建模到统一指标逻辑、统一数据服务和统一产品入口,整体保障了数据的质量。

② 数据运营效率

对于运营相关的数据问题,先提供系统化的数据指南。该指南包含三大类信息:指标类、数仓模型、推荐使用方式。

具体的实现方式,针对数据使用指南做了一个系统,把指标元数据、维度元数据、数据表和各种产品元数据等管理起来。

③ 数据成本

美团业务的数据成本也很大,每一年的数据存储、计算相关的成本增长非常快。美团目前大概的比例是70%的计算成本、20%是存储成本、10%为采集日志。

④ 数据安全

数据安全是以事前预防、事中监控、事后追踪三个方式来进行的。

数据使用过程中应当遵循的五个原则:密文处置原则、最晚解密原则、最小范围提取原则、最小授权原则、全程审计原则。

3. 衡量指标

未来能够全面的衡量数仓治理的效果,新建了数据衡量指标体系,总体分为五大类:质量类、成本类、安全、易用性和价值。

将数据治理作为日常运营项目做起来,底层依赖数据指标体系进行监控,之上从发现问题到提出优化方案,然后跟进处理,再到日常监控构成一个循环。

03

未来规划

总体来说,数据治理分为三个大阶段:被动治理、主动治理、自动治理。

第一阶段做的是被动治理,也就是阶段性治理,没有统筹考虑,主要是基于单个问题的治理,而且治理之后过一段时间可能要做重复治理。这个阶段更多是人治,一个项目成立,协调几个人按照项目制完成,没有体系规划也没有组织保障。

第二阶段是主动治理,有长期的统筹规划,能覆盖到数据生命周期的各个链路,在治理过程中把一些手段和经验流程化、标准化、系统化,长期解决一些数据问题,让数据治理长期可控。

第三阶段是自动治理,也是智能治理,希望长期规划和数据生命周期个环节链路确定好之后,把已经有的经验、流程和标准做成策略。一旦出现问题,自动监控,通过一些系统化的方式解决。自动治理的第一步还是治理方案的落地和策略化,这就非常依赖于元数据,把数据治理各个过程中的一些经验技术都沉淀起来。做完策略沉淀之后做自动化,把策略用工具的方式实现,当系统发现数据有问题时,自动去处理。

0 人点赞