作者 :“大数据小禅” 专栏简介 :本专栏主要分享收集的大数据相关的面试题,涉及到Hadoop,Spark,Flink,Zookeeper,Flume,Kafka,Hive,Hbase等大数据相关技术。
面试题目录- 1.Flink checkpoint 与 Spark Flink 有什么区别或优势吗
- 2.Flink 中的 Time 有哪几种
- 3.对于迟到数据是怎么处理的
- 4.Flink 的运行必须依赖 Hadoop 组件吗
- 5.Flink 集群有哪些角色?各自有什么作用
- 6.Flink 资源管理中 Task Slot 的概念
- 7.Flink 的重启策略了解吗
- 8.Flink 是如何保证 Exactly-once语义的
- 9.如果下级存储不支持事务,Flink 怎么保证 exactly-once
- 10.Flink 是如何处理反压的
- 11.Flink 中的状态存储
- 12.Flink 是如何支持批流一体的
- 13.Flink 的内存管理是如何做的
- 14.Flink CEP 编程中当状态没有到达的时候会将数据保存在哪里
- 15.讲一下 flink 的运行架构
- 16.讲一下 flink 的作业执行流程
- 17.flink 中的时间概念 , eventTime 和 processTime 的区别
- 总结
1.Flink checkpoint 与 Spark Flink 有什么区别或优势吗
spark streaming 的 checkpoint 仅仅是针对 driver 的故障恢复做了数据和元数据的checkpoint。而 flink 的 checkpoint 机制 要复杂了很多,它采用的是轻量级的分布式快照,实现了每个算子的快照,及流动中的数据的快照。
2.Flink 中的 Time 有哪几种
在 flink 中被划分为事件时间,提取时间,处理时间三种。如果以 EventTime 为基准来定义时间窗口那将形成 EventTimeWindow,要求消息本身就应该携带 EventTime。如果以 IngesingtTime 为基准来定义时间窗口那将形成IngestingTimeWindow,以 source 的systemTime 为准。如果以 ProcessingTime基准来定义时间窗口那将形成 ProcessingTimeWindow,以 operator 的systemTime 为准。
3.对于迟到数据是怎么处理的
Flink 中 WaterMark 和 Window 机制解决了流式数据的乱序问题,对于因为延迟而顺序有误的数据,可以根据 eventTime 进行业务处理,对于延迟的数据 Flink 也有自己的解决办法,主要的办法是给定一个允许延迟的时间,在该时间范围内仍可以接受处理延迟数据设置允许延迟的时间是通过 allowedLateness(lateness: Time)设置保存延迟数据则是通过 sideOutputLateData(outputTag: OutputTag[T])保存获取延迟数据是通过 DataStream.getSideOutput(tag: OutputTag[X])获取
4.Flink 的运行必须依赖 Hadoop 组件吗
Flink 可以完全独立于 Hadoop,在不依赖 Hadoop 组件下运行。但是做为大数据的基础设施,Hadoop 体系是任何大数据框架都绕不过去的。Flink 可以集成众多Hadooop 组件,例如 Yarn、Hbase、HDFS 等等。例如,Flink 可以和 Yarn 集成做资源调度,也可以读写 HDFS,或者利用 HDFS 做检查点。
5.Flink 集群有哪些角色?各自有什么作用
有以下三个角色:
JobManager 处理器:
也称之为 Master,用于协调分布式执行,它们用来调度 task,协调检查点,协调失败时恢复等。Flink 运行时至少存在一个 master 处理器,如果配置高可用模式则会存在多个 master 处理器,它们其中有一个是 leader,而其他的都是 standby。
TaskManager 处理器:
也称之为 Worker,用于执行一个 dataflow 的 task(或者特殊的 subtask)、数据缓冲和 data stream 的交换,Flink 运行时至少会存在一个 worker 处理器。
Clint 客户端:
Client 是 Flink 程序提交的客户端,当用户提交一个 Flink 程序时,会首先创建一个Client,该 Client 首先会对用户提交的 Flink 程序进行预处理,并提交到 Flink 集群中处理,所以 Client 需要从用户提交的 Flink 程序配置中获取 JobManager 的地址,并建立到 JobManager 的连接,将 Flink Job 提交给 JobManager
6.Flink 资源管理中 Task Slot 的概念
在 Flink 中每个 TaskManager 是一个 JVM 的进程, 可以在不同的线程中执行一个
或多个子任务。
为了控制一个 worker 能接收多少个 task。worker 通过 task slot(任务槽)来进
行控制(一个 worker 至少有一个 task slot)。
7.Flink 的重启策略了解吗
Flink 支持不同的重启策略,这些重启策略控制着 job 失败后如何重启:
固定延迟重启策略
固定延迟重启策略会尝试一个给定的次数来重启 Job,如果超过了最大的重启次数,Job 最终将失败。在连续的两次重启尝试之间,重启策略会等待一个固定的时间。
失败率重启策略
失败率重启策略在 Job 失败后会重启,但是超过失败率后,Job 会最终被认定失败。在两个连续的重启尝试之间,重启策略会等待一个固定的时间。
无重启策略
Job 直接失败,不会尝试进行重启。
8.Flink 是如何保证 Exactly-once语义的
Flink 通过实现两阶段提交和状态保存来实现端到端的一致性语义。分为以下几个步骤:开始事务(beginTransaction)创建一个临时文件夹,来写把数据写入到这个文件夹里面 预提交(preCommit)将内存中缓存的数据写入文件并关闭 正式提交(commit)将之前写完的临时文件放入目标目录下。这代表着最终的数据会有一些延迟 丢弃(abort)丢弃临时文件若失败发生在预提交成功后,正式提交前。可以根据状态来提交预提交的数据,也可删除预提交的数据。
9.如果下级存储不支持事务,Flink 怎么保证 exactly-once
端到端的 exactly-once 对 sink 要求比较高,具体实现主要有幂等写入和事务性写入两种方式。
幂等写入的场景依赖于业务逻辑,更常见的是用事务性写入。而事务性写入又有预写日志(WAL)和两阶段提交(2PC)两种方式。如果外部系统不支持事务,那么可以用预写日志的方式,把结果数据先当成状态保存,然后在收到 checkpoint 完成的通知时,一次性写入 sink 系统。
10.Flink 是如何处理反压的
Flink 内部是基于 producer-consumer 模型来进行消息传递的,Flink 的反压设计也是基于这个模型。Flink 使用了高效有界的分布式阻塞队列,就像 Java 通用的阻塞队列(BlockingQueue)一样。下游消费者消费变慢,上游就会受到阻塞。
11.Flink 中的状态存储
Flink 在做计算的过程中经常需要存储中间状态,来避免数据丢失和状态恢复。选择的状态存储策略不同,会影响状态持久化如何和 checkpoint 交互。Flink 提供了三种状态存储方式:MemoryStateBackend、FsStateBackend、RocksDBStateBackend。
12.Flink 是如何支持批流一体的
这道题问的比较开阔,如果知道 Flink 底层原理,可以详细说说,如果不是很了解,就直接简单一句话:
Flink 的开发者认为批处理是流处理的一种特殊情况。批处理是有限的流处理。Flink 使用一个引擎支持了 DataSet API 和 DataStream API。
13.Flink 的内存管理是如何做的
Flink 并不是将大量对象存在堆上,而是将对象都序列化到一个预分配的内存块上。此外,Flink 大量的使用了堆外内存。如果需要处理的数据超出了内存限制,则会将部分数据存储到硬盘上。Flink 为了直接操作二进制数据实现了自己的序列化框架。
14.Flink CEP 编程中当状态没有到达的时候会将数据保存在哪里
在流式处理中,CEP 当然是要支持 EventTime 的,那么相对应的也要支持数据的迟到现象,也就是 watermark 的处理逻辑。CEP 对未匹配成功的事件序列的处理,和迟到数据是类似的。在 Flink CEP 的处理逻辑中,状态没有满足的和迟到的数据,都会存储在一个 Map 数据结构中,也就是说,如果我们限定判断事件序列的时长为 5 分钟,那么内存中就会存储 5 分钟的数据,这在我看来,也是对内存的极大损伤之一。
15.讲一下 flink 的运行架构
当 Flink 集群启动后,首先会启动一个 JobManger 和一个或多个的TaskManager。由 Client 提交任务给 JobManager,JobManager 再调度任务到各个 TaskManager 去执行,然后 TaskManager 将心跳和统计信息汇报给 JobManager。TaskManager 之间以流的形式进行数据的传输。上述三者均为独立的 JVM 进程。
l Client 为提交 Job 的客户端,可以是运行在任何机器上(与JobManager环境连通即可)。提交 Job 后,Client 可以结束进程
(Streaming 的任务),也可以不结束并等待结果返回。
l JobManager 主要负责调度 Job 并协调 Task 做 checkpoint,职责上很像 Storm 的 Nimbus。从 Client 处接收到 Job 和 JAR 包等资源后,会生成优化后的执行计划,并以 Task 的单元调度到各个 TaskManager 去执行。
l TaskManager 在启动的时候就设置好了槽位数(Slot),每个 slot 能启动一个 Task,Task 为线程。从 JobManager 处接收需要部署的Task,部署启动后,与自己的上游建立 Netty 连接,接收数据并处理。
16.讲一下 flink 的作业执行流程
以 yarn 模式 Per-job 方式为例概述作业提交执行流程
当执行 executor() 之后,会首先在本地 client 中将代码转化为可以提交的
JobGraph
1. 如果提交为 Per-Job 模式,则首先需要启动 AM, client 会首先向资源系统申请资源, 在 yarn 下即为申请 container 开启 AM, 如果是 Session 模式的话则不需要这个步骤
2. Yarn 分配资源, 开启 AM
3. Client 将 Job 提交给 Dispatcher
4. Dispatcher 会开启一个新的 JobManager 线程
5. JM 向 Flink 自己的 Resourcemanager 申请 slot 资源来执行任务
6. RM 向 Yarn 申请资源来启动 TaskManger (Session模式跳过此步)
7. Yarn 分配 Container 来启动 taskManger (Session 模式跳过此步)8. Flink 的 RM 向 TM 申请 slot 资源来启动 task
9. TM 将待分配的 slot 提供给 JM
10. JM 提交 task, TM 会启动新的线程来执行任务,开始启动后就可以通过shuffle 模块进行 task 之间的数据交换
17.flink 中的时间概念 , eventTime 和 processTime 的区别
Flink 中有三种时间概念,分别是 Processing Time、Event Time 和 Ingestion Time
Processing Time
Processing Time 是指事件被处理时机器的系统时间。当流程序在 Processing Time 上运行时,所有基于时间的操作(如时间窗口)将使用当时机器的系统时间。每小时 Processing Time 窗口将包括在系统时钟指示整个小时之间到达特定操作的所有事件
Event Time
Event Time 是事件发生的时间,一般就是数据本身携带的时间。这个时间通常是在事件到达 Flink 之前就确定的,并且可以从每个事件中获取到事件时间戳。在 EventTime 中,时间取决于数据,而跟其他没什么关系。Event Time 程序必须指定如何生成 Event Time 水印,这是表示 Event Time 进度的机制
Ingestion Time
Ingestion Time 是事件进入 Flink 的时间。 在源操作处,每个事件将源的当前时间作为时间戳,并且基于时间的操作(如时间窗口)会利用这个时间戳Ingestion Time 在概念上位于 Event Time 和 Processing Time 之间。 与Processing Time 相比,它稍微贵一些,但结果更可预测。因为 Ingestion Time 使用稳定的时间戳(在源处分配一次),所以对事件的不同窗口操作将引用相同的时间戳,而在 Processing Time 中,每个窗口操作符可以将事件分配给不同的窗口(基于机器系统时间和到达延迟)与 Event Time 相比,Ingestion Time 程序无法处理任何无序事件或延迟数据,但程序不必指定如何生成水印
总结
本篇为Flink系列的面试题,内容较多,小伙伴们可以选择自己需要的部分进行查看。