数仓与数分之说

2022-04-27 19:40:15 浏览数 (1)

从十年的热度指数,可以看出数仓与数分同频共振;

数仓十年的指数在400左右浮动,不温不火中规中矩,像一位沉稳的老者;

数分十年的指数从300倍翻到1500左右,非常烫手,吸引了越来越多的人。

数仓与数分用什么不同呢?对于很多跃跃欲试的小白来说,了解不同,才能知道自己适合什么。

不同点一:作用力方向一分一合:

数仓即数据仓库,数据仓库重要的是数据的集成,"百川入海,聚沙成塔"的既视感。 数分即数据分析,数据分析重要的是数据的解剖,"庖丁解牛,沙里淘金"的既视感。

不同点二:决策系统中层次一末一端:

我们都知道数据的价值:在数据中处理出信息,将信息转化为知识,继而由知识内化为智慧。消弱人主观对不确定的认知局限性,提升决策的质量。

我们知道决策的重要,一个人的前途命运,一个企业的生死存亡,一个国家的强弱兴衰。毫不夸张的说:人类的发展史本身就是一部决策史。

不同点三:数仓偏"道",数分偏"术":

数据本身就客观的毫无偏见的,我们需要集成全方面多层次的数据,才能更全面的认识世界。

决策的第一步是基于决策对象集成大量的数据构建数据仓库。数据仓库建模有实体关系、多维建模、data vault、anchor等。目的是更好的系统化的组织数据。

数据分析在集成的数仓之上,需要庖丁运用解牛之术,来发现数据中存在的规律,内藏的信息。

同时也需要数据分析师掌握很多分析的算法(分类算法、聚类算法、关联分析等),还要学会很多数据处理工具及可视化工具。

不同点四:岗位职责不同

数仓开发的岗位职责 (侧重数据ETL)

数据分析的岗位职责(侧重数据分析报告)

不同点五:一个男儿本色,一个巾帼不让

一张图,也不需要费口舌之劳

不同点六:难点不同-数仓处理数据难,数分是找数据难。

数仓和数分虽然都是加工数据,但是各有各的难处:

数仓是要掌握好hive、Postgresql、elt等工具来解决数据处理难的问题;

数分常常是有分析方法却找不到数据、还要学习数据可视化。

0 人点赞