最新 最热

深度解读!新一代大数据引擎Flink厉害在哪?(附实现原理细节)

导语 | 大数据计算分为离线计算和实时计算,其中离线计算就是我们通常说的批计算,代表技术是Hadoop MapReduce、Hive等;实时计算也被称作流计算,代表技术是Storm、Spark Streaming、Flink等。本文系统地介绍了流式计算的...

2021-11-10
1

加速Flink布局,Pinterest的自助式故障诊断工具实践

为简化和加速故障排查,Pinterest 流处理平台团队基于 Flink 构建并推出了称为 Dr. Squirrel 的诊断工具,揭示并聚合任务状态,洞悉根本致因,提供解决问题的可操作过程。自发布以来,该工具显著提升了开发人员和平台团队的工...

2021-11-10
1

Flink用户画像用户画像行为特征

我们要使用的几个组件为Hadoop 2.6,HBase 1.0.0,MySQL 8,zookeeper 3.4.5,kafka 2.1.0,Flink 1.13,Canal 1.1.5。为了方便,这里都使用伪集群和单机安装。

2021-11-10
1

Flink CDC 2.0 数据处理流程全面解析

8月份 FlinkCDC 发布2.0.0版本,相较于1.0版本,在全量读取阶段支持分布式读取、支持checkpoint,且在全量 + 增量读取的过程在不锁表的情况下保障数据一致性。...

2021-11-10
1

pulsar-6:生产环境解决pulsar-flink-connector导致磁盘满的问题

在aws上部署了3台8c16g的pulsar集群。选择的是1:2的c系列机型:c5a.2xlarge。

2021-11-10
1

Flink 1.10+之改进的TaskManager内存模型与配置

Flink社区在FLIP-49提出了新版统一的TaskManager内存模型及配置,这也是Flink 1.10版本最主要的改进与优化点之一。根据社区的说法,该proposal致力于解决1.9版本及之前的TM内存配置的三个缺点:...

2021-11-05
1

数据同步工具之FlinkCDC/Canal/Debezium对比

数据准实时复制(CDC)是目前行内实时数据需求大量使用的技术,随着国产化的需求,我们也逐步考虑基于开源产品进行准实时数据同步工具的相关开发,逐步实现对商业产品的替代。本文把市面上常见的几种开源产品,Canal、Debezium、...

2021-11-05
1

基于Flink+ClickHouse构建实时数仓

Flink和ClickHouse分别是实时计算和(近实时)OLAP领域的翘楚,也是近些年非常火爆的开源框架,很多大厂都在将两者结合使用来构建各种用途的实时平台,效果很好。关于两者的优点就不再赘述,本文来简单介绍笔者团队在点击流实时...

2021-11-04
1

彻底搞清 Flink 中的 Window 机制

在流处理应用中,数据是连续不断的,有时我们需要做一些聚合类的处理,例如:在过去的1分钟内有多少用户点击了我们的网页。

2021-11-04
1

Flink企业级优化全面总结(3万字长文,15张图)

Flink性能调优的第一步,就是为任务分配合适的资源,在一定范围内,增加资源的分配与性能的提升是成正比的,实现了最优的资源配置后,在此基础上再考虑进行后面论述的性能调优策略。...

2021-11-04
1