最新 最热

【Flink】第二篇:维表Join之版本表

在数仓ETL中,事实表和维度表在维度码值之上做join、或者若干表之间进行join做数据打宽十分常见。数仓中的join本质上是以空间换时间,范式降低,以便后续olap数据分析之用。但是看似简单的join操作,一旦在Flink的流式语义中...

2022-03-31
1

【Flink】第一篇:涌现

转眼换工作已有5个月之久。从到新公司后就开始从事建设Flink实时数仓相关的设计和开发工作。排坑无数,收货满满。从这篇开始会写一些和Flink实时数仓相关的文章。...

2022-03-31
1

Cloudera流分析(CSA)1.6发行说明

我们很高兴地宣布发布用于 CDP 私有云基础的 Cloudera 流分析 (CSA) 1.6。在此版本中,我们在 1.4 和 1.5 的基础上进行构建,其中包含许多修复、增强和功能。从这个版本开始,我们现在有一个协调一致的 CSA 社区版 (CE) 发...

2022-03-29
1

FA11# Fink实时计算平台功能点整理

备注:Table & SQL API通过Apache Calcite进行SQL解析,并转换成Calcite执行计划,最终调用Flink DataStream/DataSet API。

2022-03-29
1

个推基于Flink SQL建设实时数仓实践

作为一家数据智能企业,个推在服务垂直行业客户的过程中,会涉及到很多数据实时计算和分析的场景,比如在服务开发者时,需要对App消息推送的下发数、到达数、打开率等后效数据进行实时统计;在服务政府单位时,需要对区域内实时...

2022-03-28
1

Flink Watermark 机制及总结

Flink 水印机制,简而言之,就是在 Flink 使用 Event Time 的情况下,窗口处理事件乱序和事件延迟的一种设计方案。本文从基本的概念入手,来看下 Flink 水印机制的原理和使用方式。...

2022-03-24
1

Flink在汽车之家实时计算场景中的落地实践

Apache Flink 功能强大,支持开发和运行多种不同种类的应用程序,是业界公认的性能优异的大数据实时计算引擎之一。事实证明,Flink 已经可以扩展到数千核心,其状态可以达到 TB 级别,且仍能保持高吞吐、低延迟的特性。在全球...

2022-03-24
1

作业帮基于 StarRocks 画像系统的设计及优化实践

作业帮为提高孩子学习效率通过搜索、答题、咨询等各种行为数据以及辅导效果等结果数据,利用算法、规则等技术手段建立用户画像,用于差异化辅导提升学习效率。我们根据画像标签特点并结合 StarRocks 能力建设了一套相对...

2022-03-24
1

深度参与社区建设是熟练掌握一门技术的捷径 | QCon

Apache Kafka 是一个分布式消息发布订阅系统。它最初由 LinkedIn 公司基于独特的设计实现为一个分布式的提交日志系统,之后成为 Apache 项目的一部分。Kafka 系统快速、可扩展并且可持久化。它的分区、可复制和可容错...

2022-03-23
1

Spark架构模式与Flink的对比

Spark和Flink都属于流批一体的分布式计算引擎。Flink属于流处理框架,通过流来模拟批,Spark属于批处理框架,通过批来模拟流。其分别属于Lambda架构和Dataflow架构。...

2022-03-23
1