数据湖

2021-07-01 10:31:20 浏览数 (1)

在说数据湖之前,我们还是先来说说数仓技术的前世今生

1.传统 T 1 任务

>海量的 TB 级 T 1 任务延迟导致下游数据产出时间不稳定

>任务遇到故障重试恢复代价昂贵

>数据架构在处理去重和 exactly-once 语义能力方面比较吃力

>架构复杂,涉及多个系统协调,靠调度系统来构建任务依赖关系

2.Lambda 架构

>同时维护实时平台和离线平台两套引擎,运维成本高

>实时离线两个平台需要维护两套框架不同但业务逻辑相同代码,开发成本高

>数据有两条不同链路,容易造成数据的不一致性

>数据更新成本大,需要重跑链路

3.Kappa 架构

>对消息队列存储要求高,消息队列的回溯能力不及离线存储

>消息队列本身对数据存储有时效性,且当前无法使用 OLAP 引擎直接分析消息队列 中的数据

>全链路依赖消息队列的实时计算可能因为数据的时序性导致结果不正确

4.数据湖

>支持数据高效的回溯能力

>支持数据的更新

>支持数据的批流读写

>支持实现分钟级到秒级的数据接入,实效性和Kappa 架构比略差

下面我们看下网上对于主流数据湖技术的对比

从上图中我们可以看到hudi和iceberg的功能较齐全,下面我们将从如下几方面来

1.元数据打通

2.flink读写数据湖

3.增量更新

4.对事务的支持

5.对于写入hdfs小文件合并的支持

6.湖中的数据和仓中的数据的联通测试

7.高效的回缩能力

8.支持Schema变更

9.支持批流读写

9.支持批流读写

说完了技术体现,下面我们在简单说一下数据湖和数仓的理论定义

数据湖

其实数据湖就是一个集中存储数据库,用于存储所有结构化和非结构化数据。数据湖可用其原生格式存储任何类型的数据,这是没有大小限制。数据湖的开发主要是为了处理大数据量,擅长处理非结构化数据。 我们通常会将所有数据移动到数据湖中不进行转换。数据湖中的每个数据元素都会分配一个唯一的标识符,并对其进行标记,以后可通过查询找到该元素。这样做技术能够方便我们更好的储存数据。

数据仓库

数据仓库是位于多个数据库上的大容量存储库。它的作用是存储大量的结构化数据,并能进行频繁和可重复的分析。通常情况下,数据仓库用于汇集来自各种结构化源的数据以进行分析,通常用于商业分析目的。一些数据仓库也可以处理非结构化数据,这是十分常用的工具

0 人点赞