最新 最热

收藏|Flink比Spark好在哪?

Flink 是一个面向分布式数据流处理和批量数据处理的开源计算平台。和 Spark 类似,两者都希望提供一个统一功能的计算平台给用户,都在尝试建立一个统一的平台以运行批量,流式,交互式,图处理,机器学习等应用。...

2020-10-09
1

Flink部署及作业提交(On Flink Standalone)

部署Flink之前首先需要安装好JDK,可以选择8或11版本,我这里选择的是JDK11:

2020-09-30
1

Flink部署及作业提交(On YARN)

在上一篇 Flink部署及作业提交(On Flink Cluster) 文章中,我们介绍了如何编译部署Flink自身的资源分配和管理系统,并将作业提交到该系统上去运行。但通常来讲这种方式用得不多,因为在企业中,可能会使用不同的分布式计算框架...

2020-09-30
1

Flink SQL 写入 Hive表的性能问题

翻阅Flink的PR,十几天前,阿里Flink的开发同学已经注意到了这个问题,我们将之吸收到测试环境,编译替换lib下jar包,重新测试,性能确实up了,单并发升至5W每秒,上游节点才稍微有背压。 [FLINK-19121][hive] Avoid accessing HDFS ...

2020-09-28
1

Flink 连接 hive 解决 java.net.UnknownHostException

今天在实验 Flink 连接 hive 的操作,由于 CDH 的 hadoop 是 HA,连接过程中报错如下:

2020-09-28
1

基于Flink+Hive构建流批一体准实时数仓

基于 Hive 的离线数仓往往是企业大数据生产系统中不可缺少的一环。Hive 数仓有很高的成熟度和稳定性,但由于它是离线的,延时很大。在一些对延时要求比较高的场景,需要另外搭建基于 Flink 的实时数仓,将链路延时降低到秒级...

2020-09-28
1

【Flink】基于 Flink 的流式数据实时去重

在实时计算 PV 信息时,用户短时间内重复点击并不会增加点击次数,基于此需求,我们需要对流式数据进行实时去重。

2020-09-28
1

【Flink】基于 Flink 实时计算商品订单流失量

第三条规则可以理解为数据流去重,我在上一节已经介绍过了。为了更加专注于计算商品的订单流失量,本篇文章不再关注数据去重。

2020-09-28
1

生产实践 | 基于 Flink 的短视频生产消费监控

短视频带来了全新的传播场域和节目形态,小屏幕、快节奏成为行业潮流的同时,也催生了新的用户消费习惯,为创作者和商户带来收益。而多元化的短视频也可以为品牌方提供营销机遇。...

2020-09-27
1

BigData--分布式流数据流引擎Apache Flink

官网:https://flink.apache.org/一、Flink的重要特点1)事件驱动型(Event-driven) 事件驱动的应用程序是一个有状态的应用程序,它从一个或多个事件流接收事件,并通过触发计算、状态更新或外部操作对传入事件作出反应。事件驱...

2020-09-24
1