最新 最热

数据湖解决方案关键一环,IceBerg会不会脱颖而出?

小编在之前的详细讲解过关于数据湖的发展历程和现状,《我看好数据湖的未来,但不看好数据湖的现在》 ,在最后一部分中提到了当前数据湖的解决方案中,目前跳的最凶的三巨头包括:Delta、Apache Iceberg 和 Apache Hudi。...

2021-02-05
1

正面超越Spark | 几大特性垫定Flink1.12流计算领域真正大规模生产可用(下)

我们书接上文,我们在之前的文章《正面超越Spark | 几大特性垫定Flink1.12流计算领域真正大规模生产可用(上)》详细描述了Flink的生产级别Flink on K8s高可用方案和DataStream API 对批执行模式的支持。...

2021-02-05
1

【大数据成神之路】第一版更新完毕

截止目前为止收获3500+Star,1200+Fork。这个仓库建立的初衷的是小编个人学习和面试过程中的一个笔记本,最初的时候简单到只有几个txt,在某一天突然收获了10几个Star,并且有一个妹子居然给我提了一个PR。所以才下定决心把...

2021-02-05
1

一站式大数据解决方案分析与设计实践 | BI无缝整合Apache Kylin

本文已收录于Github仓库:《大数据成神之路》 地址:https://github.com/wangzhiwubigdata/God-Of-BigData

2021-02-05
0

盘一盘 Python 系列 - Cufflinks (下)

本文是 Python 系列的 Cufflinks 补充篇。整套 Python 盘一盘系列目录如下:

2021-02-05
0

Flink 窗口之Window机制

数据分析场景见证了批处理到流处理的演变过程。尽管批处理可以作为流处理的一种特殊情况来处理,但分析永无止境的流数据通常需要转变一种思维方式,并使用它自己的专门术语,例如,窗口、At-Least-Once 或者 Exactly-Once 处...

2021-02-04
0

详解 Flink 容器化环境下的 OOM Killed

本文将解析 JVM 和 Flink 的内存模型,并总结在工作中遇到和在社区交流中了解到的造成 Flink 内存使用超出容器限制的常见原因。由于 Flink 内存使用与用户代码、部署环境、各种依赖版本等因素都有紧密关系,本文主要讨论...

2021-02-04
1

实时数仓|架构设计与技术选型

当我们做一个项目时往往都需要选择该用什么技术。这一部分不是我们普通员工想的,而是架构师会根据客户的需求选择出合适的技术。当选择合适的技术会让我们的开发事半功倍。下面我就来讲解下我做的项目(实时数仓)是如何...

2021-02-04
0

Flink on Hive构建流批一体数仓

Flink使用HiveCatalog可以通过批或者流的方式来处理Hive中的表。这就意味着Flink既可以作为Hive的一个批处理引擎,也可以通过流处理的方式来读写Hive中的表,从而为实时数仓的应用和流批一体的落地实践奠定了坚实的基础...

2021-02-04
1

Flink 自定义Avro序列化(Source/Sink)到kafka中

最近一直在研究如果提高kafka中读取效率,之前一直使用字符串的方式将数据写入到kafka中。当数据将特别大的时候发现效率不是很好,偶然之间接触到了Avro序列化,发现kafka也是支持Avro的方式于是就有了本篇文章。...

2021-02-04
0