最新 最热

flink之运行架构、作业提交流程

JobManager 是一个 Flink 集群中任务管理和调度的核心,是控制应用执行的主进程。

2024-06-14
1

flink之算子链

一个数据流在算子之间传输数据的形式可以是一对一(one-to-one)的直通(forwarding)模式,也可以是打乱的重分区(redistributing)模式,具体是哪一种形式,取决于算子的种类。...

2024-06-13
1

flink之核心概念、基础配置

当处理数据的数据量过大的时候,flink会把一个算子操作复制多份到多个节点,数据来了之后就可以到其中任意一个执行。这样一来,一个算子任务就被拆分成了多个并行的“子任务”(subtasks),再将它们分发到不同节点,就真正实现了...

2024-06-13
1

flink基础之wordcount计算

在学习大数据,最基础的入门程序就是计算wordcount,即统计每个单词出现的次数

2024-06-11
1

Flink SQL性能优化实践

在大数据处理领域,Apache Flink以其流处理和批处理一体化的能力,成为许多企业的首选。然而,随着数据量的增长,性能优化变得至关重要。本文将深入浅出地探讨Flink SQL的常见性能问题、调优方法、易错点及调优技巧,并提供代...

2024-05-22
1

【天衍系列 05】Flink集成KafkaSink组件:实现流式数据的可靠传输 & 高效协同

Apache Flink 作为流式处理领域的先锋,为实时数据处理提供了强大而灵活的解决方案。其中,KafkaSink 是 Flink 生态系统中的关键组件之一,扮演着将 Flink 处理的数据可靠地发送到 Kafka 主题的角色。本文将深入探讨 Kafka...

2024-03-04
1

【天衍系列 03】深入理解Flink的Watermark:实时流处理的时间概念与乱序处理

Watermark 是用于处理事件时间的一种机制,用于表示事件时间流的进展。在流处理中,由于事件到达的顺序和延迟,系统需要一种机制来衡量事件时间的进展,以便正确触发窗口操作等。Watermark 就是用来标记事件时间的进展情况的...

2024-03-04
1

【天衍系列 02】深入理解Flink的FileSink 组件:实时流数据持久化与批量写入

FileSink 是 Flink 中的 Sink 函数,用于将处理后的数据输出到文件系统。它能够处理实时数据流,并提供灵活的配置选项,允许用户定义输出文件的格式、路径和写入策略。...

2024-03-04
1

【天衍系列 01】深入理解Flink的 FileSource 组件:实现大规模数据文件处理

Apache Flink 是一个流式处理框架,被广泛应用于大数据领域的实时数据处理和分析任务中。在 Flink 中,FileSource 是一个重要的组件,用于从文件系统中读取数据并将其转换为 Flink 的数据流。本文将深入探讨 FileSource 的...

2024-03-04
1

【极数系列】Flink集成KafkaSink & 实时输出数据(11)

腾讯云开发者社区是腾讯云官方开发者社区,致力于打造开发者的技术分享型社区。提供专栏,问答,沙龙等产品和服务,汇聚海量精品云计算使用和开发经验,致力于帮助开发者快速成长与发展,营造开放的云计算技术生态圈。...

2024-03-04
1