最新 最热

流式计算的代表:Storm、Flink、Spark Streaming

Spark Streaming 巧妙地利用了 Spark 的分片和快速计算的特性,将实时传输进来的数据按照时间进行分段,把一段时间传输进来的数据合并在一起,当作一批数据,再去交给 Spark 去处理。...

2021-09-06
1

当Atlas遇见Flink——Apache Atlas 2.2.0发布!

距离上次atlas发布新版本已经有一年的时间了,但是这一年元数据管理平台的发展一直没有停止。Datahub,Amundsen等等,都在不断的更新着自己的版本。但是似乎Atlas在元数据管理,数据血缘领域的地位一直没有动摇。...

2021-09-02
1

当Atlas遇见Flink——Apache Atlas 2.2.0发布!

距离上次atlas发布新版本已经有一年的时间了,但是这一年元数据管理平台的发展一直没有停止。Datahub,Amundsen等等,都在不断的更新着自己的版本。但是似乎Atlas在元数据管理,数据血缘领域的地位一直没有动摇。...

2021-08-31
1

数仓实战|实时同步Kafka数据到Doris

大家好,我是一哥,Doris成为MPP数据库新贵。Doris起源于百度,致力于满足企业用户的多种数据分析场景,支持多种数据模型(明细表, 聚合表), 多种导入方式(批量), 可整合和接入多种现有系统(Spark, Flink, Hive, ElasticSearch)。...

2021-08-27
1

Flink社区 | Flink CDC 2.0 正式发布,核心改进详解

摘要:本文由社区志愿者陈政羽整理,内容来源自阿里巴巴高级开发工程师徐榜江 (雪尽) 7 月 10 日在北京站 Flink Meetup 分享的《详解 Flink-CDC》。深入讲解了最新发布的 Flink CDC 2.0.0 版本带来的核心特性,包括:全量数...

2021-08-25
1

数据湖|Flink + Iceberg 全场景实时数仓的建设实践

摘要:Apache Flink 是目前大数据领域非常流行的流批统一的计算引擎,数据湖是顺应云时代发展潮流的新型技术架构,以 Iceberg、Hudi、Delta 为代表的解决方案应运而生,Iceberg 目前支持 Flink 通过 DataStream API /Table A...

2021-08-25
1

干货|流批一体Hudi近实时数仓实践

传统意义上的数据集市主要处理T+1的数据。随着互联网的发展,当前越来越多的业务场景对于数据时效性提出了更高的要求,以便及时快速地进行数据分析和业务决策,比如依托实时数据情况开展实时推荐、实时风控、实时营销等。...

2021-08-25
1

打造轻量级实时数仓实践

Flink 和 ClickHouse 分别是实时计算和(近实时)OLAP 领域的翘楚,也是近些年非常火爆的开源框架,很多大厂都在将两者结合使用来构建各种用途的实时平台、实时数仓,效果很好。关于两者的优点就不再赘述,本文来简单介绍笔者团...

2021-08-25
1

基于 Flink 搭建实时平台

在大数据时代,金融科技公司通常借助消费数据来综合评估用户的信用和还款能力。这个过程中,某些中介机构会搜集大量的号并进行“养号”工作,即在一年周期里让这些号形成正常的消费、通讯记录,目的是将这些号“培养”得非常...

2021-08-25
1

如何用形象的比喻描述大数据的技术生态?Hadoop、Hive、Spark 之间是什么关系?

Hadoop只是一套工具的总称,它包含三部分:HDFS,Yarn,MapReduce,功能分别是分布式文件存储、资源调度和计算。

2021-08-20
1