spark_字节宝

Spark Core快速入门系列(1) | 什么是RDD?一文带你快速了解Spark中RDD的概念!

看了前面的几篇Spark博客，相信大家对于Spark的基本概念以及不同模式下的环境部署问题已经搞明白了。但其中，我们曾提到过Spark程序的核心，也就是弹性分布式数据集(RDD)。但到底什么是RDD,它是做什么用的呢？本篇博客，我们就...

spark 缓存存储

2020-10-28

Spark Core快速入门系列(2) | Spark Core中编程模型的理解与RDD的创建

在 Spark 中，RDD 被表示为对象，通过对象上的方法调用来对 RDD 进行转换。经过一系列的transformations定义 RDD 之后，就可以调用 actions 触发 RDD 的计算 action可以是向应用程序返回结果(count, collect等)，或...

spark 存储 hadoop 大数据分布式

2020-10-28

Spark Core快速入门系列(3) | ＜Transformation＞转换算子

从一个已知的 RDD 中创建出来一个新的 RDD 例如: map就是一个transformation.

spark func key map shuffle

2020-10-28

Spark Core快速入门系列(5) | RDD 中函数的传递

我们进行 Spark 进行编程的时候, 初始化工作是在 driver端完成的, 而实际的运行程序是在executor端进行的. 所以就涉及到了进程间的通讯, 数据是需要序列化的....

文件存储 spark linux

2020-10-28

Spark Core快速入门系列(7) | Spark Job 的划分

由于 Spark 的懒执行, 在驱动程序调用一个action之前, Spark 应用不会做任何事情. 针对每个 action, Spark 调度器就创建一个执行图(execution graph)和启动一个 Spark job 每个 job 由多个stages 组成, 这些...

spark

2020-10-28

Spark Core快速入门系列(8) | RDD 的持久化

每碰到一个 Action 就会产生一个 job, 每个 job 开始计算的时候总是从这个 job 最开始的 RDD 开始计算.

spark 缓存存储

2020-10-28

Spark Core快速入门系列(9) | RDD缓存和设置检查点

RDD通过persist方法或cache方法可以将前面的计算结果缓存，默认情况下 persist() 会把数据以序列化的形式缓存在 JVM 的堆空间中。但是并不是这两个方法被调用时立即缓存，而是触发后面的action时，该RDD将会被缓存在...

存储缓存 spark 大数据

2020-10-28

Spark Core快速入门系列(10) | Key-Value 类型 RDD 的数据分区器

对于只存储 value的 RDD, 不需要分区器. 只有存储Key-Value类型的才会需要分区器. Spark 目前支持 Hash 分区和 Range 分区，用户也可以自定义分区. Hash 分区为当前的默认分区，Spark 中分区器直接决定了 RD...

spark 编程算法

2020-10-28

Spark Core快速入门系列(11) | 文件中数据的读取和保存

从文件中读取数据是创建 RDD 的一种方式. 把数据保存的文件中的操作是一种 Action. Spark 的数据读取及数据保存可以从两个维度来作区分：文件格式以及文件系统。文件格式分为：Text文件、Json文件、csv文件...

json spark hadoop 云数据库SQLServer api

2020-10-28

Spark Core快速入门系列(12) | 变量与累加器问题

正常情况下, 传递给 Spark 算子(比如: map, reduce 等)的函数都是在远程的集群节点上执行, 函数中用到的所有变量都是独立的拷贝.

编程算法 spark

2020-10-28

138 139 140 141 142

Spark Core快速入门系列(1) | 什么是RDD?一文带你快速了解Spark中RDD的概念!

Spark Core快速入门系列(2) | Spark Core中编程模型的理解与RDD的创建

Spark Core快速入门系列(3) | ＜Transformation＞转换算子

Spark Core快速入门系列(5) | RDD 中函数的传递

Spark Core快速入门系列(7) | Spark Job 的划分

Spark Core快速入门系列(8) | RDD 的持久化

Spark Core快速入门系列(9) | RDD缓存和设置检查点

Spark Core快速入门系列(10) | Key-Value 类型 RDD 的数据分区器

Spark Core快速入门系列(11) | 文件中数据的读取和保存

Spark Core快速入门系列(12) | 变量与累加器问题

热门文章

热门手册