最新 最热

Spark性能优化 (4) | JVM 调优

根据 Spark 静态内存管理机制,堆内存被划分为了两块,Storage 和 Execution。

2020-10-28
1

一文教你快速解决Spark数据倾斜!

Spark 中的数据倾斜问题主要指shuffle过程中出现的数据倾斜问题,是由于不同的key对应的数据量不同导致的不同task所处理的数据量不同的问题。

2020-10-28
1

Spark 出现的问题及其解决方案

在Shuffle过程,reduce端task并不是等到map端task将其数据全部写入磁盘后再去拉取,而是map端写一点数据,reduce端task就会拉取一小部分数据,然后立即进行后面的聚合、算子函数的使用等操作。...

2020-10-28
1

Spark快速入门系列(1) | 深入浅出,一文让你了解什么是Spark

Spark 是一个快速(基于内存), 通用, 可扩展的集群计算引擎   并且 Spark 目前已经成为 Apache 最活跃的开源项目, 有超过 1000 个活跃的贡献者.

2020-10-28
1

Spark快速入门系列(2) | Spark 运行模式之Local本地模式

Local 模式就是指的只在一台计算机上来运行 Spark.   通常用于测试的目的来使用 Local 模式, 实际的生产环境中不会使用 Local 模式.

2020-10-28
1

Spark快速入门系列(3) | 简单一文了解Spark核心概念

Spark 特有资源调度系统的 Leader。掌管着整个集群的资源信息,类似于 Yarn 框架中的 ResourceManager,主要功能:

2020-10-28
1

Spark快速入门系列(4) | Spark环境搭建—standalone(1) 集群的搭建

Spark是基于内存计算的大数据并行计算框架,实际中运行计算任务肯定是使用集群模式,那么我们先来学习Spark自带的standalone集群模式了解一下它的架构及运行机制。...

2020-10-28
1

Spark快速入门系列(5) | Spark环境搭建—standalone(2) 配置历史日志服务器

默认情况下,Spark程序运行完毕关闭窗口之后,就无法再查看运行记录的Web UI(4040)了,但通过 HistoryServer 可以提供一个服务, 通过读取日志文件, 使得我们可以在程序运行结束后, 依然能够查看运行过程。本篇博客,博主就为...

2020-10-28
1

Spark快速入门系列(6) | Spark环境搭建—standalone(3) 配置HA高可用模式

Spark Standalone集群是Master-Slaves架构的集群模式,和大部分的Master-Slaves结构集群一样,存在着Master单点故障的问题。

2020-10-28
1

Spark快速入门系列(7) | Spark环境搭建—standalone(4) 配置Yarn模式

官方文档地址:http://spark.apache.org/docs/latest/running-on-yarn.html

2020-10-28
1