最新 最热

[SPARK][CORE] 面试问题之什么是 external shuffle service?

在讨论external shuffle service的具体实现之前,我们先来回顾下spark shuffle的大概过程。

2022-06-12
1

[SPARK][CORE] 面试问题之谈一谈Push-based shuffle

在Spark3.2中引入了领英设计的一种新的shuffle方案,今天我们先来了解下其大致的设计原理,之后会再分析其具体的代码实现。

2022-06-12
1

【Rust日报】2022-05-24 通过 flutter_rust_bridge 使用 Flutter

近日 Flutter 发布了 3.0 版本,如何同时享受 Flutter 和 Rust 的双重优势呢?答案是 flutter_rust_bridge。

2022-06-10
0

袋鼠云数栈基于CBO在Spark SQL优化上的探索

Spark SQL 的优化器有两种优化方式:一种是基于规则的优化方式 (Rule-Based Optimizer,简称为 RBO);另一种是基于代价的优化方式 (Cost-Based Optimizer,简称为 CBO)。...

2022-06-10
0

sparksql源码系列 | 一文搞懂Partitioning源码体系(spark3.2)

这篇文章主要介绍sparksql中Partitioning的源码体系,和上篇 sparksql源码系列 | 一文搞懂Distribution源码体系(spark3.2)一样, Partitioning也是我们理解Physical Plan、executed Plan、shuffle、SparkSQL的AQE机制等...

2022-06-09
0

sparksql源码系列 | 一文搞懂Distribution源码体系(spark3.2)

这篇文章主要介绍sparksql中Distribution的源码体系,Distribution是我们理解Physical Plan、executed Plan、shuffle、SparkSQL的AQE机制等的一个比较基础的知识点。

2022-06-09
0

sparksql源码系列 | 一文搞懂with one count distinct 执行原理

今天下午的源码课,主要是对上两次课程中留的作业的讲解,除了几个逻辑执行计划的优化器外, 重点是planAggregateWithOneDistinct(有一个count distinct情况下生成物理执行计划的原理)。...

2022-06-09
0

Sparksql源码系列 | 读源码必须掌握的scala基础语法

这篇文章总结一下我在学习spark sql源码时,曾经纠结过的一些scala语法。

2022-06-09
1

sparksql源码系列 | 一文搞懂Show create table 执行原理

这篇文章主要介绍了show create table命令执行的源码流程,弄清楚了sparksql是怎么和hive元数据库交互,查询对应表的metadata,然后拼接成最终的结果展示给用户的。...

2022-06-09
0

数据湖(四):Hudi与Spark整合

默认Spark操作Hudi使用表类型为Copy On Write模式。Hudi与Spark整合时有很多参数配置,可以参照https://hudi.apache.org/docs/configurations.html配置项来查询,此外,整合时有几个需要注意的点,如下:...

2022-06-08
1