一、数据等级划分
将历史数据划分P0、Pl、P2、P3 四个等级,其具体定义如下:
- P0 :非常重要的主题域数据和非常重要的应用数据,具有不可恢复性,如交易、日志、集团 KPI 数据、 IPO 关联表。
- P1 :重要的业务数据和重要的应用数据,具有不可恢复性,如重要的业务产品数据。
- P2 :重要的业务数据和重要的应用数据,具有可恢复性,如交易线 ETL 产生的中间过程数据。
- P3 :不重要的业务数据和不重要的应用数据,具有可恢复性,如某些 SNS 产品报表。
二、表类型划分
事件型流水表(增量表) | 事件型流水表(增量表)指数据无重复或者无主键数据,如日志。 |
---|---|
事件型镜像表(增量表) | 事件型镜像表(增量表)指业务过程性数据,有主键,但是对于同样主键的属性会发生缓慢变化,如交易、订单状态与时间会根据业务发生变更。 |
维表(全量表) | 维表包括维度与维度属性数据,如用户表、商品表。 |
Merge全量表 | Merge 全量表包括业务过程性数据或者维表数据。由于数据本身有新增的或者发生状态变更,对于同样主键的数据可能会保留多份,因此可以对这些数据根据主键进行 Merge 操作,主键对应的属性只会保留最新状态,历史状态保留在前一天分区 中。例如,用户表、交易表等都可以进行 Merge 操作。 |
普通全量表 | 很多小业务数据或者产品数据,BI一般是直接全量拉取,这种方式效率快,对存储压力也不是很大,而且表保留很长时间,可以根据历史数据等级确定保留策略。 |
ETL临时表 | ETL 临时表是指 ETL 处理过程中产生的临时表数据,一般不建议保留,最多7天。 |
TT 临时表 | TT 拉取的数据和 DbSync 产生的临时数据最终会流转到 DS 层,ODS 层数据作为原始数据保留下来,从而使得 TT&DbSync 上游数据成为临时数据。这类数据不建议保留很长时间,生命周期默认设置为 93天,可以根据实际情况适当减少保留天数。 |
三、生命周期管理矩阵
生命周期管理矩阵 | P0 | P1 | P2 | P3 | |
---|---|---|---|---|---|
ODS层 | 事件型流水表(增量表) | 永久保留 | 3年 | 365天 | 180天 |
事件型镜像表(增量表) | 永久保留 | 3年 | 365天 | 180天 | |
维表(全量表) | 33天 极限存储 | 33天 极限存储 | 33天 极限存储 | 33天 极限存储 | |
Merge全量表 | 2天 | 2天 | 2天 | 2天 | |
普通全量表 | 3年 | 3年 | 3年 | 3年 | |
新同步全量表 | 3天 | 3天 | 3天 | 3天 | |
DWD层 | 事件型流水表(增量表) | 永久保留 | 3年 | 365天 | 180天 |
事件型镜像表(增量表) | 永久保留 | 3年 | 365天 | 180天 | |
维表(全量表) | 33天 极限存储 | 33天 极限存储 | 33天 极限存储 | 33天 极限存储 | |
普通全量表 | 3年 | 365天 | 365天 | 180天 | |
DWS层 | 各粒度数据 | 永久保留 | 3年 | 3年 | 3年 |
临时存储区 | ETL临时表 | 7天 | 3天 | 3天 | 3天 |
TT 临时表 | 7天 | 7天 | 7天 | 7天 | |
应用层 | 运营报表 | 永久保留 | ─── | ─── | ─── |
对外数据 | 7年 | ─── | ─── | ─── | |
内部产品 | 3年 | ─── | ─── | ─── |