最新 最热

StarRocks学习-进阶

数据导入功能是将原始数据按照相应的模型进行清洗转换并加载到StarRocks中,方便查询使用。

2022-11-13
1

Spark on Yarn资源调优

Spark是专为大规模数据处理而设计的快速通用的计算引擎,具有速度快、支持多语言、移植性高的特点。而移植性高的体现就在于Spark的部署方式有多种模式,如:本地local、Standalone、Apache Mesos、Hadoop YARN、EC2、Mesos...

2022-11-13
1

几行 Python 代码就可以提取数百个时间序列特征

时间序列数据是随着时间的推移反复捕获的变量值,随着时间的推移可以产生一系列的按时间顺序索引的数据点。在时间序列中,数据具有自然的时间顺序,即一个变量在特定时间的值依赖于过去的值。...

2022-11-11
1

spark SQL 内核分析(一)

spark sql 本质是将sql 语句解析为对应的RDD模型来进行执行spark 相关的计算操作。

2022-11-10
1

Spark sql 是如何优化执行的

Spark SQL 端到端的完整优化流程主要包括两个阶段:Catalyst 优化器和 Tungsten。其中,Catalyst 优化器又包含逻辑优化和物理优化两个阶段。为了把开发者的查询优化到极致,整个优化过程的运作机制设计得都很精密,因此我会...

2022-11-10
1

spark RDD

RDD,全称为Resilient Distributed Datasets(弹性分布式数据集),是一个容错的、并行的数据结构,可以让用户显式地将数据存储到磁盘和内存中,并能控制数据的分区。同时,RDD还提供了一组丰富的操作来操作这些数据。在这些操作中...

2022-11-10
1

spark知识整理

Spark是基于内存计算大数据分析引擎,提高了在大数据环境下数据处理的实时性。Spark目前来说仅仅只涉及到数据的计算,并没有涉及到数据的存储。

2022-11-10
1

Spark SQL源码研读系列

Spark SQL作为大数据开发中非常重要的工具,如果能对其内部原理有进一步的了解,那么能更好的使用它。

2022-11-08
1

TaskScheduler详解及源码介绍

创建TaskScheduler的源代码为SparkContext.createTaskScheduler,如下所示。该方法会根据master的配置匹配部署模式,每种部署模式中都会创建两个类(TaskSchedulerImpl、SchedulerBackend)的实例,只是TaskSchedulerImpl都相...

2022-11-07
1

一文搞懂Spark的Task调度器(TaskScheduler)[通俗易懂]

通过之前 DAGScheduler的介绍可以 知道, DAGScheduler 将划分的一系列 Stage (每个Stage封装一个TaskSet) , 按照Stage的先后顺序依次提交给底层的TaskScheduler去执行。 下面来分析TaskScheduler接收到DAGScheduler的...

2022-11-07
1