最新 最热

基于Hudi的流式CDC实践一:听说你准备了面试题?

写了快两个月Structured Streaming的代码,最近刚把数据迁移代码写完。

2021-10-11
0

如何将数据更快导入Apache Hudi?

Apache Hudi除了支持insert和upsert外,还支持bulk_insert操作将数据摄入Hudi表,对于bulk_insert操作有不同的使用模式,本篇博客将阐述bulk_insert不同的模式以及与其他操作的比较。...

2021-10-11
0

基于Apache Hudi 的CDC数据入湖

首先我们介绍什么是CDC?CDC的全称是Change data Capture,即变更数据捕获,它是数据库领域非常常见的技术,主要用于捕获数据库的一些变更,然后可以把变更数据发送到下游。它的应用比较广,可以做一些数据同步、数据分发和数据...

2021-10-11
1

四万字长文 | Spark性能优化实战手册(建议收藏)

在大数据计算领域,Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作,应用范围与前景非常广泛...

2021-10-11
0

2021年大数据Spark(四十五):Structured Streaming Sources 输入源

从Spark 2.0至Spark 2.4版本,目前支持数据源有4种,其中Kafka 数据源使用作为广泛,其他数据源主要用于开发测试程序。

2021-10-11
0

2021年大数据Spark(四十七):Structured Streaming Sink 输出

在StructuredStreaming中定义好Result DataFrame/Dataset后,调用writeStream()返回DataStreamWriter对象,设置查询Query输出相关属性,启动流式应用运行,相关属性如下:

2021-10-11
0

2021年大数据Spark(五十二):Structured Streaming 事件时间窗口分析

在SparkStreaming中窗口统计分析:Window Operation(设置窗口大小WindowInterval和滑动大小SlideInterval),按照Streaming 流式应用接收数据的时间进行窗口设计的,其实是不符合实际应用场景的。...

2021-10-11
0

2021年大数据Spark(五):大环境搭建本地模式 Local

Local模式就是,以一个JVM进程,去模拟整个Spark的运行环境,就是讲Master和Worker角色以线程的形式运行在这个进程中。

2021-10-09
1

2021年大数据Spark(六):环境搭建集群模式 Standalone

Standalone模式是Spark自带的一种集群模式,不同于前面本地模式启动多个进程来模拟集群的环境,Standalone模式是真实地在多个机器之间搭建Spark集群的环境,完全可以利用该模式搭建多机器集群,用于实际的大数据处理。...

2021-10-09
0

2021年大数据Spark(七):应用架构基本了解

从图中可以看到Spark Application运行到集群上时,由两部分组成:Driver Program和Executors。

2021-10-09
0