数据大师们的纷争

2022-04-27 18:58:22 浏览数 (2)

温馨提示

本公众号名称由趣味数据周刊更名为:数据指向。

指象:谓天以景象示意,出自于《汉书》,希望以数据指象为言语,得一类而达之。感谢一路走路,不离不弃的你们,谢谢。

正文-数据大师的纷争

世上两条路一条是自己脚下的路,另一条是不在自己脚下的路。

同样关于数据管理的建仓方法论也有两个:一个是Bill Inmon的《Corporate Information Factory》,另一个是Ralph Kimball 的《The Data Warehouse Toolkit》。

更巧的是两位大师是常常逢面的朋友,也是不分伯仲,无胜无负的对手。

一,对象与过程之争

金博尔用维度对象去描述世界,将世界分为度量和上下文,度量是来自于商业机构的业务之中,常以数值的形式(浏览人数,下单人数,下单金额,商品数量等)存在,维度建模理论称它为事实;事实由类别万千的上下文包裹着,而且这些上下文常被直观地切割成万千独立的逻辑块,维度建模称之为维。

维是度量的限定词,让度量言之有物明意;维可以简单理解为对度量信息5w-who,when,where,what,why)的描述。

恩门用关系过程来描述世界,将世界理解为因因果果,因果相续的时间串联的故事线,他认为数据仓库一样是面向主题、集成的、与时间相关的、不可修改的数据集合。与金博尔的5W可分维的逻辑截然不同,主张5W信息的集成不可修改。

一个关注对象群体的维度拆解,一个侧重事件的明细过程,有优有劣,亦各有秋千。

二,仓市先后之争

金博尔以形式架构来构建数仓,中间是事实表,事实表周围则是各种角度的维度表(比如:时间上的年月日、地点上的省市县、物体上的大小质地等)。

多个主题的事实维度组贴近不同部门不同业务,主张权责下方到部门,通过总线架构和一致性的维度一起保证多个主题的事实维度能够最终集成在一起构成数仓。

恩门对此另有高见,认为数仓应为原子原子数据的集成仓库,应采用第三范式和实体关系理论(ER理论)而非维度建模的事实表与维度表来建模。

恩门主要先集中数据仓库,然后和业务在仓库中提取所需数据,从而保证数据的一致性。先成仓然后服务个业务的集市。

简而言之:金博尔主张自下而上的,从群众中来再到群众中去,希望借市成仓;恩门主张自上而下,肉食者谋定全局,统筹规划,希望建仓成市。

3,着眼点不同

金博尔更多着眼于当下业务数据需要,快速响应业务需求,快速构建一个数据仓库,但是后期集成和维护繁杂

恩门更多着眼于更远的全局架构,方法部署和开发周期较长,但是后期容易维护而且高度集成;

二者没有对错之分,只有不同阶段不同场景之下的利弊权衡;

对于业务多变的互联网初期企业侧重于快,借市成仓,快速迭代更有益处;

对于业务稳定,变化周期长的企业侧重于稳,建仓成市,统筹决策更有益处。

- END -

0 人点赞