先前有在公众号里说到了接下来自己的学习重点会放在数据仓库的设计与建设、ETL、大数据架构相关的内容了,所以今天就先开一个专栏来专门存放这类的知识,叫 BDK!聪明的你应该也猜到就是BigData Knowledge的简称了。虽然说数据仓库和大数据放在一起还是蛮牵强的,但是我个人觉得其实我们学习的数据仓库、数据湖、ETL、数据挖掘之类的知识,其实都是用来管理我们日益增多的大数据的,因此,从这个角度来看,取这个名字也是有点合理的(哈哈哈哈)。
另外,机器学习、数据分析的内容仍会推送优秀的文章分享给大家的,放心唷!
在之前也写过一些大数据技术处理语言的一些文章,在这里也粘贴一下链接,方便大家回顾知识,同时也补充了接下来的内容。
后续的内容,我会用 BDK 来标识了。
BDK,BigData Knowledge的简称,主要用于更新以下但不限于数据仓库的设计与建设、ETL、大数据架构相关内容的专栏,知识内容来自于相关书籍的个人学习总结笔记,相关资料可见文末的附录。
先罗列出大致的知识框架,主要就是围绕着以下的内容来进行梳理学习的。
以上的东西还是有些抽象化的,下面贴一张阿里巴巴大数据系统的体系架构图,大家可以花点时间来看一看这个架构图,大家了解下有哪些节点,并且有哪些是比较陌生的。(点击图片放大)
大家可以看出这个架构图主要就是分为数据采集层、数据计算层、数据服务层以及数据应用层。
1. 数据采集层
首先一套标准的数据采集体系方案是必须的,它可以高性能、规范地完成海量数据的采集工作。但有了这套体系仍不够,还需要对各个场景的埋点进行规范,从而满足通用浏览、点击、特殊交互、APP事件、H5等多种业务场景,同时还要建立一套高性能的、高可靠的数据传输体系,完成数据从生产业务端到大数据系统的数据传输。
2. 数据计算层
单单只有原始的数据源其实很难发挥数据价值的,数据只有被整合和计算才能辅助数据挖掘和数据分析师来挖掘潜在信息。这里必须需要的是数据存储、计算云平台和数据整合及管理体系。只有这些基础架构完善后,大数据工程师就可以构建统一、规范、可共享的全域数据体系,避免数据的冗余和重复建设,规避数据烟囱和不一致性。
这里分享一个阿里数据仓库的数据加工链路的分层理念,包括了操作数据层(Operational Data Store,ODS)、明细数据层(Data Warehouse Detail,DWD)、汇总数据层(Data Warehouse Summary,DWS)和应用数据层(Application Data Store,ADS),通过不同层次之间的加工过程实现从数据资产向信息资产的转化,并且对整个过程进行有效的元数据管理以及数据质量处理和管控。
这里展开一下:
元数据模型整合及应用:包括数据源元数据、数据仓库元数据、数据链路元数据、工具类元数据、数据质量类元数据等,元数据应用主要就是面向数据发现、数据管理等,如用于存储、计算和成本管理。
3. 数据服务层
对已经整合和计算好的数据进行服务提供,一般都是通过接口服务的方式输出。阿里的数据服务平台以数据仓库整合计算好的数据作为数据源,对外提供简单数据查询服务、复杂数据查询服务(承接集团用户识别、用户画像等)和实时数据推送服务三大特色数据服务。
4. 数据应用层
数据都准备好了,就需要一些具体的、合适的应用提供给用户,让数据最大化地发挥价值,阿里在这边的应用主要表现在下面几个方面:如搜索、推荐、广告、金融、信用、保险、文娱、物流等,按照不同的应用领域进行划分。
大体的大数据体系的架构体系就是这么去划分的,大家对这些架构有大致的认识有助于理解后续的学习内容。
? Reference
[1] 大数据之路:阿里巴巴大数据实践