最新 最热

【Spark】 Spark的基础环境 Day02

​ 当Spark Application运行到YARN上时,在提交应用时指定master为yarn即可,同时需要告知YARN集群配置信息(比如ResourceManager地址信息),此外需要监控Spark Application,配置历史服务器相关属性。...

2021-12-07
1

【Spark】Spark Core Day04

官方文档:http://spark.apache.org/docs/latest/rdd-programming-guide.html#rdd-operations

2021-12-07
1

Spark的常用算子大总结

作用:返回一个新的RDD,该RDD由每一个输入元素经过func函数转换后组成 2. 需求:创建一个1-10数组的RDD,将所有元素2形成新的RDD (1)创建 scala> var source = sc.parallelize(1 to 10) source: org.apache.spark.rdd.RDD......

2021-12-07
1

大数据开发岗面试复习30天冲刺 - 日积月累,每日五题【Day28】——Spark15+数据倾斜1

Spark中的内存使用分为两部分:执行(execution)与存储(storage)。

2021-12-07
1

大数据开发岗面试复习30天冲刺 - 日积月累,每日五题【Day27】——Spark14

① 构建Application的运行环境,Driver创建一个SparkContext

2021-12-07
1

大数据开发岗面试复习30天冲刺 - 日积月累,每日五题【Day26】——Spark13

5)计算各分区时优先的位置列表(可选),比如从HDFS上的文件生成RDD时,RDD分区的位置优先选择数据所在的节点,这样可以避免数据移动带来的开销。

2021-12-07
1

大数据开发岗面试复习30天冲刺 - 日积月累,每日五题【Day25】——Spark12

1)原理: 计算能力调度器支持多个队列,每个队列可配置一定的资源量,每个队列采用 FIFO 调度策略,为了防止同一个用户的作业独占队列中的资源,该调度器会对 同一用户提交的作业所占资源量进行限定。调度时,首先按以下策略选择...

2021-12-07
1

大数据开发岗面试复习30天冲刺 - 日积月累,每日五题【Day24】——Spark11

1)参数用于设置每个stage的默认task数量。这个参数极为重要,如果不设置可能会直接影响你的Spark作业性能; 2)很多人都不会设置这个参数,会使得集群非常低效,你的cpu,内存再多,如果task始终为1,那也是浪费, spark官网建议task个...

2021-12-07
1

大数据开发岗面试复习30天冲刺 - 日积月累,每日五题【Day23】——Spark10

不一定,除了一对一的窄依赖,还包含一对固定个数的窄依赖(就是对父RDD的依赖的Partition的数量不会随着RDD数量规模的改变而改变), 比如join操作的每个partiion仅仅和已知的partition进行join,这个join操作是窄依赖,依赖固定...

2021-12-07
1

大数据开发岗面试复习30天冲刺 - 日积月累,每日五题【Day22】——Spark9

1)累加器在全局唯一的,只增不减,记录全局集群的唯一状态; 2)在exe中修改它,在driver读取; 3)executor级别共享的,广播变量是task级别的共享两个application不可以共享累加器,但是同一个app不同的job可以共享。...

2021-12-07
1