最新 最热

黄彬耕:Iceberg在腾讯微视实时场景的应用

首先看下数仓架构。数仓的数据接入主要有两个来源,一个是客户端的上报,还有一个是业务后台 DB 的上报,这两份数据都会通过一个消息队列接入数仓。我们的数据仓库采用lambda架构,总体分为离线和实时两套体系,分别有自己的计...

2022-09-08
1

关于 Flink 状态与容错机制

Flink 作为新一代基于事件流的、真正意义上的流批一体的大数据处理引擎,正在逐渐得到广大开发者们的青睐。就从我自身的视角看,最近也是在数据团队把一些原本由 Flume、SparkStreaming、Storm 编写的流式作业往 Flink ...

2022-09-08
1

JRC Flink流作业调优指南

Tech导读本文综合Apache Flink原理与京东实时计算平台(JRC)的背景,详细讲述了大规模Flink流作业的调优方法。通过阅读本文,读者可了解Flink流作业的通用调优措施,并应用于生产环境。写在前面Apache Flink作为Google Datafl...

2022-09-07
1

Flink的重启策略

Flink支持不同的重启策略,这些重启策略控制着job失败后如何重启。集群可以通过默认的重启策略来重启,这个默认的重启策略通常在未指定重启策略的情况下使用,而如果Job提交的时候指定了重启策略,这个重启策略就会覆盖掉集...

2022-09-07
1

SQL 开发任务超 50% !滴滴实时计算的演进与优化

摘要:Apache Flink 是一个分布式大数据处理引擎,可对有限数据流和无限数据流进行有状态计算。可部署在各种集群环境,对各种大小的数据规模进行快速计算。滴滴基于 Apache Flink 做了大量的优化,也增加了更多的功能,比如扩...

2022-09-05
1

Dinky 开源一周年了~

光阴荏苒,日月如梭,不知不觉间,Dinky 开源已经满满一周年。在这一年里,从思想的火花到实现的落地,再到各种组件与功能的扩展,是数十位贡献者的共同努力的成果,在此感谢各位贡献者与社区伙伴的支持,Dinky 定韶华不负,未来可期。...

2022-09-04
1

Flink在用户行为分析中的应用(一)

传统的企业营销大体是营销人员通过查询画像标签库去圈选人群,这种方案往往无法抓住那些"转瞬即逝的机会"

2022-09-03
1

Dinky 扩展 iceberg 的实践分享

摘要:本文介绍了 Dinky 实时计算平台扩展 iceberg 的实践分享。内容包括:

2022-09-02
1

大数据平台架构及主流技术栈

互联网和移动互联网技术开启了大规模生产、分享和应用数据的大数据时代。面对如此庞大规模的数据,如何存储?如何计算?各大互联网巨头都进行了探索。Google的三篇论文 GFS(2003),MapReduce(2004),Bigtable(2006)为大数据技...

2022-09-02
1

hudi HMS Catalog尝鲜指南

功能亮点:当flink和spark同时接入hive metastore时,用hive metastore对hudi的元数据进行管理,无论是使用flink还是spark引擎建表,另外一种引擎或者hive都可以直接查询。...

2022-09-02
1