从十年的热度指数,可以看出数仓与数分同频共振;
数仓十年的指数在400左右浮动,不温不火中规中矩,像一位沉稳的老者;
数分十年的指数从300倍翻到1500左右,非常烫手,吸引了越来越多的人。
数仓与数分用什么不同呢?对于很多跃跃欲试的小白来说,了解不同,才能知道自己适合什么。
不同点一:作用力方向一分一合:
数仓即数据仓库,数据仓库重要的是数据的集成,"百川入海,聚沙成塔"的既视感。 数分即数据分析,数据分析重要的是数据的解剖,"庖丁解牛,沙里淘金"的既视感。
不同点二:决策系统中层次一末一端:
我们都知道数据的价值:在数据中处理出信息,将信息转化为知识,继而由知识内化为智慧。消弱人主观对不确定的认知局限性,提升决策的质量。
我们知道决策的重要,一个人的前途命运,一个企业的生死存亡,一个国家的强弱兴衰。毫不夸张的说:人类的发展史本身就是一部决策史。
不同点三:数仓偏"道",数分偏"术":
数据本身就客观的毫无偏见的,我们需要集成全方面多层次的数据,才能更全面的认识世界。
决策的第一步是基于决策对象集成大量的数据构建数据仓库。数据仓库建模有实体关系、多维建模、data vault、anchor等。目的是更好的系统化的组织数据。
数据分析在集成的数仓之上,需要庖丁运用解牛之术,来发现数据中存在的规律,内藏的信息。
同时也需要数据分析师掌握很多分析的算法(分类算法、聚类算法、关联分析等),还要学会很多数据处理工具及可视化工具。
不同点四:岗位职责不同
数仓开发的岗位职责 (侧重数据ETL)
数据分析的岗位职责(侧重数据分析报告)
不同点五:一个男儿本色,一个巾帼不让
一张图,也不需要费口舌之劳
不同点六:难点不同-数仓处理数据难,数分是找数据难。
数仓和数分虽然都是加工数据,但是各有各的难处:
数仓是要掌握好hive、Postgresql、elt等工具来解决数据处理难的问题;
数分常常是有分析方法却找不到数据、还要学习数据可视化。