Spark_字节宝

首页 / 技术

【Spark】 Spark的基础环境 Day02

当Spark Application运行到YARN上时，在提交应用时指定master为yarn即可，同时需要告知YARN集群配置信息（比如ResourceManager地址信息），此外需要监控Spark Application，配置历史服务器相关属性。...

yarn Node.js spark

2021-12-07

5

【Spark】Spark Core Day04

官方文档：http://spark.apache.org/docs/latest/rdd-programming-guide.html#rdd-operations

缓存 Python CSS spark mapreduce

2021-12-07

6

Spark的常用算子大总结

作用：返回一个新的RDD，该RDD由每一个输入元素经过func函数转换后组成 2. 需求：创建一个1-10数组的RDD，将所有元素2形成新的RDD （1）创建 scala> var source = sc.parallelize(1 to 10) source: org.apache.spark.rdd.RDD......

scala spark 编程算法

2021-12-07

5

大数据开发岗面试复习30天冲刺 - 日积月累，每日五题【Day28】——Spark15+数据倾斜1

Spark中的内存使用分为两部分：执行（execution）与存储（storage）。

spark 数据分析大数据缓存

2021-12-07

4

大数据开发岗面试复习30天冲刺 - 日积月累，每日五题【Day27】——Spark14

① 构建Application的运行环境，Driver创建一个SparkContext

spark 大数据 jvm 缓存

2021-12-07

3

大数据开发岗面试复习30天冲刺 - 日积月累，每日五题【Day26】——Spark13

5）计算各分区时优先的位置列表（可选），比如从HDFS上的文件生成RDD时，RDD分区的位置优先选择数据所在的节点，这样可以避免数据移动带来的开销。

spark mapreduce yarn Node.js 编程算法

2021-12-07

4

大数据开发岗面试复习30天冲刺 - 日积月累，每日五题【Day25】——Spark12

1）原理：计算能力调度器支持多个队列，每个队列可配置一定的资源量，每个队列采用 FIFO 调度策略，为了防止同一个用户的作业独占队列中的资源，该调度器会对同一用户提交的作业所占资源量进行限定。调度时，首先按以下策略选择...

文件存储 spark mapreduce tcpip

2021-12-07

8

大数据开发岗面试复习30天冲刺 - 日积月累，每日五题【Day24】——Spark11

1）参数用于设置每个stage的默认task数量。这个参数极为重要，如果不设置可能会直接影响你的Spark作业性能； 2）很多人都不会设置这个参数，会使得集群非常低效，你的cpu，内存再多，如果task始终为1，那也是浪费， spark官网建议task个...

spark bash bash指令

2021-12-07

2

大数据开发岗面试复习30天冲刺 - 日积月累，每日五题【Day23】——Spark10

不一定，除了一对一的窄依赖，还包含一对固定个数的窄依赖（就是对父RDD的依赖的Partition的数量不会随着RDD数量规模的改变而改变），比如join操作的每个partiion仅仅和已知的partition进行join，这个join操作是窄依赖，依赖固定...

spark mapreduce hadoop

2021-12-07

8

大数据开发岗面试复习30天冲刺 - 日积月累，每日五题【Day22】——Spark9

1）累加器在全局唯一的，只增不减，记录全局集群的唯一状态； 2）在exe中修改它，在driver读取； 3）executor级别共享的，广播变量是task级别的共享两个application不可以共享累加器，但是同一个app不同的job可以共享。...

spark 编程算法大数据 linux

2021-12-07

2

73 74 75 76 77