1.1.3 Spark架构与单机分布式系统架构对比

传统的单机系统，虽然可以多核共享内存、磁盘等资源，但是当计算与存储能力无法满足大规模数据处理的需要时，面对自身CPU与存储无法扩展的先天限制，单机系统就力不从心了。

1．分布式系统的架构

所谓的分布式系统，即为在网络互连的多个计算单元执行任务的软硬件系统，一般包括分布式操作系统、分布式数据库系统、分布式应用程序等。本书介绍的Spark分布式计算框架，可以看作分布式软件系统的组成部分，基于Spark，开发者可以编写分布式计算程序。

直观来看，大规模分布式系统由许多计算单元构成，每个计算单元之间松耦合。同时，每个计算单元都包含自己的CPU、内存、总线及硬盘等私有计算资源。这种分布式结构的最大特点在于不共享资源，与此同时，计算节点可以无限制扩展，计算能力和存储能力也因而得到巨大增长。但是由于分布式架构在资源共享方面的先天缺陷，开发者在书写和优化程序时应引起注意。分布式系统架构如图1-2所示。

[插图]

图1-2 分布式系统架构图

为了减少网络I/O开销，分布式计算的一个核心原则是数据应该尽量做到本地计算。在计算过程中，每个计算单元之间需要传输信息，因此在信息传输较少时，分布式系统可以利用资源无限扩展的优势达到高效率，这也是分布式系统的优势。目前分布式系统在数据挖掘和决策支持等方面有着广泛的应用。

Spark正是基于这种分布式并行架构而产生，也可以利用分布式架构的优势，根据需要，对计算能力和存储能力进行扩展，以应对处理海量数据带来的挑战。同时，Spark的快速及容错等特性，让数据处理分析显得游刃有余。

Spark架构

Spark架构采用了分布式计算中的Master-Slave模型。集群中运行Master进程的节点称为Master，同样，集群中含有Worker进程的节点为Slave。Master负责控制整个集群的运行；Worker节点相当于分布式系统中的计算节点，它接收Master节点指令并返回计算进程到Master; Executor负责任务的执行；Client是用户提交应用的客户端；Driver负责协调提交后的分布式应用。具体架构如图1-3所示。

[插图]

图1-3 Spark架构

在Spark应用的执行过程中，Driver和Worker是相互对应的。Driver是应用逻辑执行的起点，负责Task任务的分发和调度；Worker负责管理计算节点并创建Executor来并行处理Task任务。Task执行过程中所需的文件和包由Driver序列化后传输给对应的Worker节点，Executor对相应分区的任务进行处理。

下面介绍Spark架构中的组件。

1）Client：提交应用的客户端。

2）Driver：执行Application中的main函数并创建SparkContext。

3）ClusterManager：在YARN模式中为资源管理器。在Standalone模式中为Master（主节点），控制整个集群。

4）Worker：从节点，负责控制计算节点。启动Executor或Driver，在YARN模式中为NodeManager。

5）Executor：在计算节点上执行任务的组件。

6）SparkContext：应用的上下文，控制应用的生命周期。

7）RDD：弹性分布式数据集，Spark的基本计算单元，一组RDD可形成有向无环图。

8）DAG Scheduler：根据应用构建基于Stage的DAG，并将Stage提交给Task Scheduler。

9）Task Scheduler：将Task分发给Executor执行。

10）SparkEnv：线程级别的上下文，存储运行时重要组件的应用，具体如下：

①SparkConf：存储配置信息。

②BroadcastManager：负责广播变量的控制及元信息的存储。

③BlockManager：负责Block的管理、创建和查找。

④MetricsSystem：监控运行时的性能指标。

⑤MapOutputTracker：负责shuffle元信息的存储。

Spark架构揭示了Spark的具体流程如下：

1）用户在Client提交了应用。

2）Master找到Worker，并启动Driver。

3）Driver向资源管理器（YARN模式）或者Master（Standalone模式）申请资源，并将应用转化为RDD Graph。

4）DAG Scheduler将RDD Graph转化为Stage的有向无环图提交给Task Scheduler。

5）Task Scheduler提交任务给Executor执行。

Spark运行逻辑

下面举例说明Spark的运行逻辑，如图1-4所示，在Action算子被触发之后，所有累积的算子会形成一个有向无环图DAG。Spark会根据RDD之间不同的依赖关系形成Stage，每个Stage都包含一系列函数执行流水线。图1-4中A、B、C、D、E、F为不同的RDD, RDD内的方框为RDD的分区。

[插图]

图1-4 Spark执行RDD Graph

图1-4中的运行逻辑如下：

1）数据从HDFS输入Spark。

2）RDD A、RDD C经过flatMap与Map操作后，分别转换为RDD B和RDD D。

3）RDD D经过reduceByKey操作转换为RDD E。

4）RDD B与RDD E进行join操作转换为RDD F。

5）RDD F通过函数saveAsSequenceFile输出保存到HDFS中。

spark 分布式系统架构存储

0 人点赞

1.1.3 Spark架构﻿与单机分布式系统架构对比

1.1.3 Spark架构与单机分布式系统架构对比