最新 最热

大数据技术入门:MapReduce(分布式计算框架)

MapReduce是一种编程模型,用于大规模数据集(大于1TB)的并行运算。概念"Map(映射)“和"Reduce(归约)”,是它们的主要思想,都是从函数式编程语言里借来的,还有从矢量编程语言里借来的特性。它极大地方便了编程人员在不会分布式并...

2022-12-01
1

大数据技术入门:hdfs(分布式文件存储系统)

Hadoop分布式文件系统(HDFS)是指被设计成适合运行在通用硬件(commodity hardware)上的分布式文件系统(Distributed File System)。它和现有的分布式文件系统有很多共同点。但同时,它和其他的分布式文件系统的区别也是很...

2022-12-01
1

大数据技术入门:impala查询引擎

Impala是Cloudera公司主导开发的新型查询系统,它提供SQL语义,能查询存储在Hadoop的HDFS和HBase中的PB级大数据。已有的Hive系统虽然也提供了SQL语义,但由于Hive底层执行使用的是MapReduce引擎,仍然是一个批处理过程,难以满...

2022-12-01
1

谈谈对Flink框架中容错机制及状态的一致性的理解

Flink 故障恢复机制的核心,就是应用状态的一致性检查点,有状态流应用的一致检查点,其实就是所有任务的状态,在某个时间点的一份拷贝(一份快照);这个时间点,应该是所有任务都恰好处理完一个相同的输入数据的时刻。在执行流应用...

2022-12-01
1

结合案例总结Flink框架中的最底层API(ProcessFunction)用法

在之前总结的文章中有提到过,Flink框架提供了三层API完成流处理任务。至此已经学习了DataStream API ,ProcessFunction API 是Flink中最底层的API,可以访问时间戳、watermark 以及注册定时事件。还可以输出特定的一些事...

2022-12-01
1

Flink框架中的时间语义和Watermark(数据标记)

“时间”在我们日常的开发学习过程中是特别常见的一个名词,例如:Java中的日期处理类、获取系统的当前时间、毫秒级的时间戳等等。接下来让我们来看看在Flink框架中,对时间不同的概念。Flink框架中有三个时间的语义:事件时...

2022-12-01
1

关于Flink框架窗口(window)函数最全解析

在真实的场景中数据流往往都是没有界限的,无休止的,就像是一个通道中水流持续不断地通过管道流向别处,这样显然是无法进行处理、计算的,那如何可以将没有界限的数据进行处理呢?我们可以将这些无界限的数据流进行切割、拆分...

2022-12-01
1

Flink流处理API大合集:掌握所有flink流处理技术,看这一篇就够了

在之前的文章中有提到过,一个flink应用程序开发的步骤大致为五个步骤:构建执行环境、获取数据源、操作数据源、输出到外部系统、触发程序执行。由这五个模块组成了一个flink任务,接下来围绕着每个模块对应的API进行梳理...

2022-12-01
1

深入浅出总结Flink运行时架构

Flink 运行时架构主要包括四个不同的组件,它们会在运行流处理应用程序时协同工作:作业管理器(JobManager)、资源管理器(ResourceManager)、任务管理器(TaskManager),以及分发器(Dispatcher)。因为 Flink 是用 Java 和 Scala 实现...

2022-12-01
1

如何构建、部署运行Flink程序

Flink程序一般的开发步骤 构建完成Flink程序之后就可以开发程序了,开发一个Flink程序的一般步骤:

2022-12-01
1