生命周期管理矩阵

2023-10-17 08:55:20 浏览数 (1)

一、数据等级划分

将历史数据划分P0、Pl、P2、P3 四个等级,其具体定义如下:

  • P0 :非常重要的主题域数据和非常重要的应用数据,具有不可恢复性,如交易、日志、集团 KPI 数据、 IPO 关联表。
  • P1 :重要的业务数据和重要的应用数据,具有不可恢复性,如重要的业务产品数据。
  • P2 :重要的业务数据和重要的应用数据,具有可恢复性,如交易线 ETL 产生的中间过程数据。
  • P3 :不重要的业务数据和不重要的应用数据,具有可恢复性,如某些 SNS 产品报表。

二、表类型划分 

事件型流水表(增量表)

事件型流水表(增量表)指数据无重复或者无主键数据,如日志。

事件型镜像表(增量表)

事件型镜像表(增量表)指业务过程性数据,有主键,但是对于同样主键的属性会发生缓慢变化,如交易、订单状态与时间会根据业务发生变更。

维表(全量表)

维表包括维度与维度属性数据,如用户表、商品表。

Merge全量表

Merge 全量表包括业务过程性数据或者维表数据。由于数据本身有新增的或者发生状态变更,对于同样主键的数据可能会保留多份,因此可以对这些数据根据主键进行 Merge 操作,主键对应的属性只会保留最新状态,历史状态保留在前一天分区 中。例如,用户表、交易表等都可以进行 Merge 操作。

普通全量表

很多小业务数据或者产品数据,BI一般是直接全量拉取,这种方式效率快,对存储压力也不是很大,而且表保留很长时间,可以根据历史数据等级确定保留策略。

ETL临时表

ETL 临时表是指 ETL 处理过程中产生的临时表数据,一般不建议保留,最多7天。

TT 临时表

TT 拉取的数据和 DbSync 产生的临时数据最终会流转到 DS 层,ODS 层数据作为原始数据保留下来,从而使得 TT&DbSync 上游数据成为临时数据。这类数据不建议保留很长时间,生命周期默认设置为 93天,可以根据实际情况适当减少保留天数。

三、生命周期管理矩阵 

生命周期管理矩阵

P0

P1

P2

P3

ODS层

事件型流水表(增量表)

永久保留

3年

365天

180天

事件型镜像表(增量表)

永久保留

3年

365天

180天

维表(全量表)

33天 极限存储

33天 极限存储

33天 极限存储

33天 极限存储

Merge全量表

2天

2天

2天

2天

普通全量表

3年

3年

3年

3年

新同步全量表

3天

3天

3天

3天

DWD层

事件型流水表(增量表)

永久保留

3年

365天

180天

事件型镜像表(增量表)

永久保留

3年

365天

180天

维表(全量表)

33天 极限存储

33天 极限存储

33天 极限存储

33天 极限存储

普通全量表

3年

365天

365天

180天

DWS层

各粒度数据

永久保留

3年

3年

3年

临时存储区

ETL临时表

7天

3天

3天

3天

TT 临时表

7天

7天

7天

7天

应用层

运营报表

永久保留

───

───

───

对外数据

7年

───

───

───

内部产品

3年

───

───

───

0 人点赞