最新 最热

使用Apache Flink和Kafka进行大数据流处理

Flink是一个开源流处理框架,注意它是一个处理计算框架,类似Spark框架,Flink在数据摄取方面非常准确,在保持状态的同时能轻松地从故障中恢复。

2022-07-20
0

Flink – state管理

没有描述了整个checkpoint的流程,但是对于如何生成snapshot和恢复snapshot的过程,并没有详细描述,这里补充

2022-07-19
0

湖仓才是数据智能的未来?那你必须了解下国产唯一开源湖仓了

机器之心发布机器之心编辑部 国产唯一的开源数据湖存储框架 LakeSoul 近期发布了 2.0 升级版本,让数据智能触手可及。湖仓一体作为新一代大数据技术架构,将逐渐取代单一数据湖和数仓架构,成为大数据架构的演进方向。当...

2022-07-18
1

Apache Beam实战指南 | 玩转KafkaIO与Flink

AI前线导读:本文是 **Apache Beam实战指南系列文章** 的第二篇内容,将重点介绍 Apache Beam与Flink的关系,对Beam框架中的KafkaIO和Flink源码进行剖析,并结合应用示例和代码解读带你进一步了解如何结合Beam玩转Kafka和Fli...

2022-07-14
0

Flink整合ElasticSearch指南

在使用Flink进行数据的处理的时候,一个必要步骤就是需要将计算的结果进行存储或导出,Flink中这个过程称为Sink,官方我们提供了常用的几种Sink Connector,例如:...

2022-07-13
0

使用Flink 与 Pulsar 打造实时消息系统

最初,BIGO 的消息流平台主要采用开源 Kafka 作为数据支撑。随着数据规模日益增长,产品不断迭代,BIGO 消息流平台承载的数据规模出现了成倍增长,下游的在线模型训练、在线推荐、实时数据分析、实时数仓等业务对消息流平台...

2022-07-12
0

基于 Flink 实现的商品实时推荐系统(附源码)

根据用户特征,重新排序热度榜,之后根据两种推荐算法计算得到的产品相关度评分,为每个热度榜中的产品推荐几个关联的产品

2022-07-12
1

Flink源码分析之RPC通信

Flink基于Akka来实现内部各组件(ResourceManager、Dispatcher、JobMaster、TaskExecutor等)间的RPC通信。本篇着重分析Flink的RPC设计,如何封装Actor模型,RPC的创建和调用流程。...

2022-07-12
1

基于TIS构建Apache Hudi千表入湖方案

随着大数据时代的到来,数据量动辄PB级,因此亟需一种低成本、高稳定性的实时数仓解决方案来支持海量数据的OLAP查询需求,Apache Hudi[1]应运而生。Hudi借助与存放在廉价的分布式文件系统之中列式存储文件,并将其元数据信息...

2022-07-11
0

Flink源码分析之Flink on YARN - Per Job

用户的应用程序是一个分布式程序,需要按照YARN的规范来写才能提交到YARN集群被调度运行起来。

2022-07-09
1