最新 最热

时序数据库破局开放探讨

近几年IoT、IIoT、AIoT和智慧城市快速发展,时序/时空数据库成为数据架构技术栈的标配。根据国际知名网站DB-Engines数据,时序数据库在过去24个月内排名高居榜首,且远高于其他类型的数据库,可见业内对时序数据库的需求迫切...

2022-06-07
0

为什么说存储和计算分离的架构才是未来

编者按:本文最初发表于 2018.07.07 JuiceFS 官方博客,那是还没有开始这个公众号,官博去年的文章里这篇阅读最多,所以在官微中也发一次,方便读者引用、转发、收藏。...

2022-06-07
0

[SPARK][CORE] 面试问题之 Shuffle reader 的细枝末节 (上)

之前我们已经了解了shuffle writer的详细过程,那么生成文件后会发生什么呢?以及它们是如何被读取呢?读取是内存的操作吗?这些问题也随之产生,那么今天我们将先来了解了shuffle reader的细枝末节。...

2022-06-05
0

「Hudi系列」Hudi查询&写入&常见问题汇总

2. 「Hudi系列」Apache Hudi入门指南 | SparkSQL+Hive+Presto集成

2022-06-05
0

Apache Hudi 0.11 版本重磅发布,新特性速览!

在 0.11.0 中,默认为 Spark writer 启用具有同步更新的元数据表和基于元数据表的file listing,以提高在大型 Hudi 表上的分区和文件listing的性能。在reader方面,用户需要将其设置为 true 以从中受益。元数据表和相关文...

2022-06-05
1

大数据环境搭建-Hadoop与Spark

https://www.psvmc.cn/article/2022-03-31-bigdata-environment.html

2022-06-04
0

关于大数据的完整讲解

ELT的过程是,在抽取后将结果先写入目的地,然后利用数据库的聚合分析能力或者外部计算框架,如Spark来完成转换

2022-06-02
1

面试篇: SparkSql如何把Sql转化成RDD可以执行的任务

1.SparkSql通过Parser(解析器)把Sql转化成UnResolved Logical Plan(这是一棵Parsed Logical Plan AST语法树)。

2022-06-01
1

Spark Shuffle机制

在MapReduce框架中,Shuffle是连接Map和Reduce之间的桥梁,Map的输出要用到Reduce中必须经过Shuffle这个环节,Shuffle的性能高低直接影响了整个程序的性能和吞吐量。Spark作为MapReduce框架的一种实现,自然也实现了Shuffle...

2022-06-01
0

技术篇:Spark的宽依赖与窄依赖

Spark中RDD的高效与DAG图有着莫大的关系,在DAG调度中需要对计算过程划分Stage,而划分依据就是RDD之间的依赖关系。

2022-06-01
0