最新 最热

Spark Core快速入门系列(1) | 什么是RDD?一文带你快速了解Spark中RDD的概念!

看了前面的几篇Spark博客,相信大家对于Spark的基本概念以及不同模式下的环境部署问题已经搞明白了。但其中,我们曾提到过Spark程序的核心,也就是弹性分布式数据集(RDD)。但到底什么是RDD,它是做什么用的呢?本篇博客,我们就...

2020-10-28
0

Spark Core快速入门系列(2) | Spark Core中编程模型的理解与RDD的创建

在 Spark 中,RDD 被表示为对象,通过对象上的方法调用来对 RDD 进行转换。   经过一系列的transformations定义 RDD 之后,就可以调用 actions 触发 RDD 的计算   action可以是向应用程序返回结果(count, collect等),或...

2020-10-28
0

Spark Core快速入门系列(3) | <Transformation>转换算子

从一个已知的 RDD 中创建出来一个新的 RDD 例如: map就是一个transformation.

2020-10-28
1

Spark Core快速入门系列(5) | RDD 中函数的传递

我们进行 Spark 进行编程的时候, 初始化工作是在 driver端完成的, 而实际的运行程序是在executor端进行的. 所以就涉及到了进程间的通讯, 数据是需要序列化的....

2020-10-28
0

Spark Core快速入门系列(7) | Spark Job 的划分

由于 Spark 的懒执行, 在驱动程序调用一个action之前, Spark 应用不会做任何事情.   针对每个 action, Spark 调度器就创建一个执行图(execution graph)和启动一个 Spark job   每个 job 由多个stages 组成, 这些...

2020-10-28
0

Spark Core快速入门系列(8) | RDD 的持久化

每碰到一个 Action 就会产生一个 job, 每个 job 开始计算的时候总是从这个 job 最开始的 RDD 开始计算.

2020-10-28
0

Spark Core快速入门系列(9) | RDD缓存和设置检查点

RDD通过persist方法或cache方法可以将前面的计算结果缓存,默认情况下 persist() 会把数据以序列化的形式缓存在 JVM 的堆空间中。   但是并不是这两个方法被调用时立即缓存,而是触发后面的action时,该RDD将会被缓存在...

2020-10-28
0

Spark Core快速入门系列(10) | Key-Value 类型 RDD 的数据分区器

对于只存储 value的 RDD, 不需要分区器.   只有存储Key-Value类型的才会需要分区器.   Spark 目前支持 Hash 分区和 Range 分区,用户也可以自定义分区.   Hash 分区为当前的默认分区,Spark 中分区器直接决定了 RD...

2020-10-28
0

Spark Core快速入门系列(11) | 文件中数据的读取和保存

从文件中读取数据是创建 RDD 的一种方式.   把数据保存的文件中的操作是一种 Action.   Spark 的数据读取及数据保存可以从两个维度来作区分:文件格式以及文件系统。   文件格式分为:Text文件、Json文件、csv文件...

2020-10-28
0

Spark Core快速入门系列(12) | 变量与累加器问题

正常情况下, 传递给 Spark 算子(比如: map, reduce 等)的函数都是在远程的集群节点上执行, 函数中用到的所有变量都是独立的拷贝.

2020-10-28
0