2021年最新最全Flink系列教程_Flink快速入门(概述,安装部署)(一)(JianYi收藏)

文章目录

代码语言：txt复制

- 引言
- 相关教程直通车:day01_Flink概述、安装部署和入门案例今日目标Flink概述什么是批处理和流处理为什么需要流计算Flink的发展史Flink的官方介绍Flink组件栈Flink基石Flink的应用场景Flink的安装部署Local本地安装Standalone独立集群安装Standalone-HA高可用集群模式Flink on Yarn模式千亿数据仓库实时项目Flink入门案例Flink API编程模型批处理案例流处理案例流处理-Lambda版本Flink原理初探总结

引言

大家好,我是ChinaManor,直译过来就是中国码农的意思,我希望自己能成为国家复兴道路的铺路人,大数据领域的耕耘者,平凡但不甘于平庸的人。

下面为大家带来阿里巴巴极度热推的Flink,实时数仓是未来的方向,学好Flink,月薪过万不是梦!!

day01_Flink概述、安装部署和入门案例

今日目标

Flink概述（了解）
Flink安装部署（会部署）
Flink入门案例（会操作）

Flink概述

什么是批处理和流处理

批处理，基于周期的数据一批批处理（数据采集、数据ETL、数据统计分析挖掘、报表展示）
流处理，实时的来一条处理一条。

为什么需要流计算

流处理应用场景
- 实时监控
- 实时大屏、实时分析
- 实时数据仓库

Flink的发展史

2009年柏林工业大学一个研究项目
2014年被贡献给 apache 成为顶级项目，Flink 计算的主流方向是流式处理
2019年flink 商业公司被阿里收购，Flink 迎来了快速的发展

Flink的官方介绍

Flink 是 Java 开发的，通信机制使用 akka ，数据的交换是 netty
Flink 推荐使用 Java 、 scala 、 python

Flink组件栈

部署层 local 单机；集群部署（standalone 、 yarn 、mesos、k8s）；云部署（阿里云、腾讯云、亚马逊云等）
运行层 runtime StreamingGraph 流图 jobGraph ExecuteGraph
API DataSet api (软弃用) ，高版本中全部弃用 DataStream API
类库 FlinkML Gelly（图计算）

Flink 中批处理是流处理的一种特例。

Flink基石

检查点 checkpoint 轻量级
状态 state keyedstate operatorstate
时间 time EventTime（业务时间） ingestion time（摄取时间） processing time（处理时间）
窗口 windows 滚动时间、滑动时间、会话窗口、计数窗口

Flink的应用场景

常用的应用

应用三个场景
1. stream pipeline 流管线
2. 批/流分析
3. 基于事件驱动

Flink的安装部署

Local本地安装

Standalone独立集群安装

Standalone-HA高可用集群模式

Flink on Yarn模式

千亿数据仓库实时项目

实时通过大屏或者看板展示订单相关信息
技术架构
1. 数据源 MySQL、日志数据
2. 日志采集工具Flume、CDC工具Canal（binlog日志变化）
3. 消息队列 Kafka，数据仓库分层，ODS、DWD、DWS层，时间不受限
4. 流式计算引擎 Flink
5. 内存（缓存）数据库Redis ，保存维度数据
6. 明细数据落到Hbase
7. 建索引和SQL查询Phoenix
8. 经过ETL或业务分析统计写回Kafka
9. 时序数据库Druid加载Kafka中数据进行业务的统计
10. 报表展示Superset或者echarts图表工具

Flink入门案例

Flink API

编程模型

source
transformation
sink

批处理案例

代码语言：javascript复制

package cn.itcast.sz22.day01;

import org.apache.flink.api.common.functions.FlatMapFunction;
import org.apache.flink.api.common.functions.MapFunction;
import org.apache.flink.api.java.DataSet;
import org.apache.flink.api.java.ExecutionEnvironment;
import org.apache.flink.api.java.operators.AggregateOperator;
import org.apache.flink.api.java.operators.DataSource;
import org.apache.flink.api.java.operators.FlatMapOperator;
import org.apache.flink.api.java.operators.MapOperator;
import org.apache.flink.api.java.tuple.Tuple2;
import org.apache.flink.util.Collector;

/**
 * Author itcast
 * Date 2021/5/4 15:25
 * 通过 flink 批处理实现 wordcount
 * 开发步骤：
 * 1. 获取环境变量
 * 2. 读取数据源
 * 3. 转换操作
 * 4. 将数据落地，打印到控制台
 * 5. 执行（流环境下）
 */
public class Wordcount {
    public static void main(String[] args) throws Exception {
        //获取环境变量
        ExecutionEnvironment env = ExecutionEnvironment.getExecutionEnvironment();
        //读取数据
        //1. 文件中读取
        //2. 获取本地的数据，开发测试用
        DataSource<String> source = env
                .fromElements("itcast hadoop spark", "itcast hadoop spark", "itcast hadoop", "itcast");
        //3. 进行转换操作
        DataSet<String> flatMapDS = source.flatMap(new FlatMapFunction<String, String>() {
            @Override
            public void flatMap(String value, Collector<String> out) throws Exception {
                String[] words = value.split(" ");
                for (String word : words) {
                    out.collect(word);
                }
            }
        });
        //3.2 转换成元素 map
        MapOperator<String, Tuple2<String, Integer>> mapDS = flatMapDS.map(new MapFunction<String, Tuple2<String, Integer>>() {
            @Override
            public Tuple2<String, Integer> map(String value) throws Exception {
                return Tuple2.of(value, 1);
            }
        });
        //3.3统计
        AggregateOperator<Tuple2<String, Integer>> result = mapDS.groupBy(0).sum(1);
        //4.打印输出
        result.print();

    }
}

流处理案例

代码语言：javascript复制

package cn.itcast.sz22.day01;

import org.apache.flink.api.common.RuntimeExecutionMode;
import org.apache.flink.api.common.functions.FlatMapFunction;
import org.apache.flink.api.common.functions.MapFunction;
import org.apache.flink.api.java.tuple.Tuple2;
import org.apache.flink.streaming.api.datastream.DataStream;
import org.apache.flink.streaming.api.datastream.SingleOutputStreamOperator;
import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;
import org.apache.flink.util.Collector;

/**
 * Author itcast
 * Date 2021/5/4 15:55
 * 流式计算 wordcount 统计
 *  编码步骤
 *  1.准备环境-env
 *  2.准备数据-source
 *  3.处理数据-transformation
 *  4.输出结果-sink
 *  5.触发执行-execute
 */
public class Wordcount2 {
    public static void main(String[] args) throws Exception {
        //编码步骤
        //1.准备环境-env
        StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
        env.setRuntimeMode(RuntimeExecutionMode.STREAMING);
        env.setParallelism(1);
        //2.准备数据-source
        DataStream<String> linesDS = env
                .fromElements("itcast hadoop spark","itcast hadoop spark","itcast hadoop","itcast");
        //3.处理数据-transformation
        SingleOutputStreamOperator<String> flatMap = linesDS.flatMap(new FlatMapFunction<String, String>() {
            @Override
            public void flatMap(String value, Collector<String> out) throws Exception {
                String[] words = value.split(" ");
                for (String word : words) {
                    out.collect(word);
                }
            }
        });
        SingleOutputStreamOperator<Tuple2<String, Integer>> mapDS = flatMap.map(new MapFunction<String, Tuple2<String, Integer>>() {
            @Override
            public Tuple2<String, Integer> map(String value) throws Exception {
                return Tuple2.of(value, 1);
            }
        });
        SingleOutputStreamOperator<Tuple2<String, Integer>> result = mapDS.keyBy(t -> t.f0)
                .sum(1);
        //4.输出结果-sink
        result.print();
        //5.触发执行-execute
        env.execute();
    }
}

流处理-Lambda版本

代码语言：javascript复制

package cn.itcast.sz22.day01;

import org.apache.flink.api.common.typeinfo.Types;
import org.apache.flink.api.java.tuple.Tuple2;
import org.apache.flink.streaming.api.datastream.DataStream;
import org.apache.flink.streaming.api.datastream.DataStreamSource;
import org.apache.flink.streaming.api.datastream.SingleOutputStreamOperator;
import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;
import org.apache.flink.util.Collector;

import java.util.Arrays;

/**
 * Author itcast
 * Date 2021/5/4 16:05
 * 通过 java 的 lambda 表达式实现 wordcount
 */
public class Wordcount3 {
    public static void main(String[] args) throws Exception {
        //1. 获取环境变量
        StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
        env.setParallelism(1);
        //2. 读取数据源
        DataStreamSource<String> source = env.fromElements("itcast hadoop spark", "itcast hadoop spark", "itcast hadoop", "itcast");
        //3. 转换操作
        // void flatMap(T value, Collector<O> out)
        DataStream<String> faltMapDS = source.flatMap((String value, Collector<String> out) ->
                Arrays.stream(value.split(" "))
                        .forEach(out::collect))
                .returns(Types.STRING);
        //O map(T value)
        SingleOutputStreamOperator<Tuple2<String, Integer>> mapDS = faltMapDS
                .map((word) -> Tuple2.of(word, 1))
                .returns(Types.TUPLE(Types.STRING, Types.INT));
        SingleOutputStreamOperator<Tuple2<String, Integer>> result = mapDS.keyBy(t -> t.f0).sum(1);
        //4. 将数据落地，打印到控制台
        result.print();
        //5. 执行（流环境下）
        env.execute();
    }
}

Flink原理初探

Flink的角色分配

代码语言：txt复制

1. jobmanager
2. taskmanager
3. clienttaskmanager 执行能力

代码语言：txt复制

1. taskslot 静态的概念
2. parallelism 并行度 动态概念每个节点就是一个 task 任务
每个任务拆分成多个并行处理的任务，就叫子任务 subtask

流图 StreamGraph 逻辑执行流图 DataFlow operator chain 操作链
JobGraph ExecuteGraph 物理执行计划
Event 事件带有时间戳的
Operator 传递模式： one to one 模式， redistributing模式

Flink之执行图

总结

以上便是2021年最新最全Flink系列教程_Flink概述、安装部署和入门案例(一)

flink 大数据数据结构 windows api

0 人点赞