Spark_字节宝

首页 / 技术

StarRocks学习-进阶

数据导入功能是将原始数据按照相应的模型进行清洗转换并加载到StarRocks中，方便查询使用。

数据库大数据 SQL 编程算法 spark

2022-11-13

8

Spark on Yarn资源调优

Spark是专为大规模数据处理而设计的快速通用的计算引擎，具有速度快、支持多语言、移植性高的特点。而移植性高的体现就在于Spark的部署方式有多种模式，如：本地local、Standalone、Apache Mesos、Hadoop YARN、EC2、Mesos...

2022-11-13

7

几行 Python 代码就可以提取数百个时间序列特征

时间序列数据是随着时间的推移反复捕获的变量值，随着时间的推移可以产生一系列的按时间顺序索引的数据点。在时间序列中，数据具有自然的时间顺序，即一个变量在特定时间的值依赖于过去的值。...

大数据 spark 分布式官方文档编程算法

2022-11-11

7

spark SQL 内核分析（一）

spark sql 本质是将sql 语句解析为对应的RDD模型来进行执行spark 相关的计算操作。

spark SQL 数据库 api 数据处理

2022-11-10

8

Spark sql 是如何优化执行的

Spark SQL 端到端的完整优化流程主要包括两个阶段：Catalyst 优化器和 Tungsten。其中，Catalyst 优化器又包含逻辑优化和物理优化两个阶段。为了把开发者的查询优化到极致，整个优化过程的运作机制设计得都很精密，因此我会...

SQL api spark parquet transactions

2022-11-10

21

spark RDD

RDD，全称为Resilient Distributed Datasets（弹性分布式数据集），是一个容错的、并行的数据结构，可以让用户显式地将数据存储到磁盘和内存中，并能控制数据的分区。同时，RDD还提供了一组丰富的操作来操作这些数据。在这些操作中...

数据处理 spark processing mapreduce

2022-11-10

15

spark知识整理

Spark是基于内存计算大数据分析引擎，提高了在大数据环境下数据处理的实时性。Spark目前来说仅仅只涉及到数据的计算，并没有涉及到数据的存储。

mapreduce 大数据 spark 机器学习神经网络

2022-11-10

12

Spark SQL源码研读系列

Spark SQL作为大数据开发中非常重要的工具，如果能对其内部原理有进一步的了解，那么能更好的使用它。

2022-11-08

8

TaskScheduler详解及源码介绍

创建TaskScheduler的源代码为SparkContext.createTaskScheduler，如下所示。该方法会根据master的配置匹配部署模式，每种部署模式中都会创建两个类（TaskSchedulerImpl、SchedulerBackend）的实例，只是TaskSchedulerImpl都相...

2022-11-07

8

一文搞懂Spark的Task调度器（TaskScheduler）[通俗易懂]

通过之前 DAGScheduler的介绍可以知道， DAGScheduler 将划分的一系列 Stage (每个Stage封装一个TaskSet) , 按照Stage的先后顺序依次提交给底层的TaskScheduler去执行。下面来分析TaskScheduler接收到DAGScheduler的...

2022-11-07

7

18 19 20 21 22