数仓设计和规范—数仓构建流程

2021-07-01 18:12:56 浏览数 (1)

一. 构建流程

         通常的数据构建流程如下:

说明:这里缺了ETL设计和开发,即数据到ODS层。

二. 构建流程说明

         核心是梳理数据域,指标域,关键是指标的开发:

① 业务板块:是比数据域更高维度的业务划分方法,适用于庞大的业务系统。

② 维度:维度是度量的环境,是我们观察业务的角度,如时间,地点等,用来反映业务的一类属性 。其中描述维度的是 属性,即维度属性,是查询约束条件、分组和报表标签生成的基本来源,是数据易用性的关键。 ③ 度量:度量是指标产生的原始数据,或者是指标的结果值,度量通常为数值型数据,作为事实逻辑表的事实。 ④ 指标:指标分为原子指标和派生指标。原子指标是基于某一业务事件行为下的度量,是业务定义中不可再拆分的指标,是具有明确业务含义的名词 ,体现明确的业务统计口径和计算逻辑,例如支付金额。      原子指标=业务过程 度量,如订单数量,支付金额。      派生指标=时间周期(When) 修饰词(How) 原子指标,派生指标可以理解为对原子指标业务统计范围的圈定,如用户近1日通过支付宝支付金额,用户近30日通过手机APP产生的订单数量。

⑤ 业务过程: 业务过程可以是单个业务事件,例如交易的支付、退款等;也可以是某个事件的状态,例如当前的账户余额等;还可以是一系列相关业务事件组成的业务流程。具体取决于您分析的是某些事件过去发生情况、当前状态还是事件流转效率。

⑥ 业务限定:统计的业务范围,筛选出符合业务规则的记录(类似于SQL中where后的条件,不包括时间区间)。

⑦ 统计周期:统计的时间范围,例如最近一天,最近30天等(类似于SQL中where后的时间条件)。

⑧ 统计粒度:统计分析的对象或视角,定义数据需要汇总的程度,可理解为聚合运算时的分组条件(类似于SQL中的group by的对象)。粒度是维度的一个组合,指明您的统计范围。例如,某个指标是某个卖家在某个省份的成交额,则粒度就是卖家、地区这两个维度的组合。

如果您需要统计全表的数据,则粒度为全表。在指定粒度时,您需要充分考虑到业务和维度的关系。统计粒度常作为派生指标的修饰词而存在。

上述开发过程中的demo示例:

三 业务需求规范说明

     业务需求规范主要是说明分析主题,维度(维度层级),分析指标,数据来源和对应业务对象,示例如下:

分析主题

销售情况分析

维度

时间,地区,产品类型

维度层级

时间:年-月-日, 最小粒度日

地区:省-市,最小粒度市

产品类型:天猫,淘宝,聚划算

分析指标

DAU,订单数,支付金额

数据来源

用户日志埋点表,用户订单支付表

业务对象

数据大盘,APP运营,高层报告

备注

0 人点赞