最新 最热

2021年大数据Spark(八):环境搭建集群模式 Standalone HA

Spark Standalone集群是Master-Slaves架构的集群模式,和大部分的Master-Slaves结构集群一样,存在着Master单点故障(SPOF)的问题。

2021-10-09
0

2021年大数据Spark(九):Spark On Yarn两种模式总结

包含两个部分:应用管理者AppMaster和运行应用进程Process(如MapReduce程序MapTask和ReduceTask任务),如下图所示:

2021-10-09
1

2021年大数据Spark(十):环境搭建集群模式 Spark on YARN

Spark运行在YARN上是有2个模式的, 1个叫 Client模式 一个叫Cluster模式

2021-10-09
1

2021年大数据Spark(十一):应用开发基于IDEA集成环境

实际开发Spark 应用程序使用IDEA集成开发环境,Spark课程所有代码均使用Scala语言开发,利用函数式编程分析处理数据,更加清晰简洁。

2021-10-09
1

2021年大数据Spark(十二):Spark Core的RDD详解

1.MR:只提供了map和reduce的API,而且编写麻烦,运行效率低!---早就淘汰了!

2021-10-09
0

2021年大数据Spark(十四):Spark Core的RDD操作

有一定开发经验的读者应该都使用过多线程,利用多核 CPU 的并行能力来加快运算速率。在开发并行程序时,可以利用类似 Fork/Join 的框架将一个大的任务切分成细小的任务,每个小任务模块之间是相互独立的,可以并行执行,然后将...

2021-10-09
1

2021年大数据Spark(十九):Spark Core的​​​​​​​共享变量

在默认情况下,当Spark在集群的多个不同节点的多个任务上并行运行一个函数时,它会把函数中涉及到的每个变量,在每个任务上都生成一个副本。但是,有时候需要在多个任务之间共享变量,或者在任务(Task)和任务控制节点(Driver P...

2021-10-09
0

2021年大数据Spark(二十):Spark Core外部数据源引入

Spark可以从外部存储系统读取数据,比如RDBMs表中或者HBase表中读写数据,这也是企业中常常使用,如:

2021-10-09
1

2021年大数据Spark(二十二):内核原理

Spark的核心是根据RDD来实现的,Spark Scheduler则为Spark核心实现的重要一环,其作用就是任务调度。Spark的任务调度就是如何组织任务去处理RDD中每个分区的数据,根据RDD的依赖关系构建DAG,基于DAG划分Stage,将每个Stage中...

2021-10-09
1

2021年大数据Spark(二十三):SparkSQL 概述

Spark SQL允许开发人员直接处理RDD,同时可以查询在Hive上存储的外部数据。Spark SQL的一个重要特点就是能够统一处理关系表和RDD,使得开发人员可以轻松的使用SQL命令进行外部查询,同时进行更加复杂的数据分析。...

2021-10-09
1