最新 最热

Spark Streaming 快速入门系列(4) | 一文告诉你SparkStreaming如何整合Kafka!

注意:读数据只能从Leader读, 写数据也只能往Leader写,Follower会从Leader那里同步数据过来做副本!!!

2020-10-28
1

Spark Streaming 快速入门系列(5) | 还不会DStream转换,一文带你深入了解

关于转换这方面的一些具体问题,如果想要了解可以点击下列网址进行查看: http://spark.apache.org/docs/2.1.1/streaming-programming-guide.html#transformations-on-dstreams

2020-10-28
1

Spark Streaming 项目实战 (2) | 从 Kafka中消费数据

在依赖选择上spark-streaming-kafka此次选用0-10_2.11而非0-08_2.11

2020-10-28
1

Spark内核详解 (1) | Spark内核的简要概述

包括 Spark 核心组件的运行机制、Spark 任务调度机制、Spark 内存管理机制、Spark 核心功能的运行原理等

2020-10-28
1

Spark内核详解 (2) | Spark之间的通讯架构

Spark 内置的RPC框架前后共有两种架构,一个是在Spark2.0.0中被移除的Akka,一个则是借鉴了Akka 的 Actor 模型的Netty

2020-10-28
1

Spark内核详解 (4) | Spark 部署模式

实际上,除了上述这些通用的集群管理器外,Spark 内部也提供了方便用户测试和学习的简单集群部署模式。由于在实际生产环境下使用的绝大多数的集群管理器是 Hadoop YARN,因此我们关注的重点是 Hadoop YARN 模式下的 Spark ...

2020-10-28
1

Spark内核详解 (5) | Spark的任务调度机制

在上一篇博文中我们讲解了 Spark YARN-Cluster 模式下的任务提交流程,但是我们并没有具体说明 Driver 的工作流程, Driver 线程主要是初始化 SparkContext对象,准备运行所需的上下文,然后一方面保持与ApplicationMaster的...

2020-10-28
1

Spark性能优化 (1) | 常规性能调优

Spark 性能调优的第一步,就是为任务分配更多的资源,在一定范围内,增加资源的分配与性能的提升是成正比的,实现了最优的资源配置后,在此基础上再考虑进行后面论述的性能调优策略。...

2020-10-28
1

Spark性能优化 (2) | 算子调优

普通的 map 算子对 RDD 中的每一个元素进行操作,而 mapPartitions 算子对 RDD 中每一个分区进行操作。

2020-10-28
1

Spark性能优化 (3) | Shuffle 调优

在 Spark 任务运行过程中,如果 shuffle 的map端处理的数据量比较大,但是map端缓冲的大小是固定的,可能会出现map端缓冲数据频繁spill溢写到磁盘文件中的情况,使得性能非常低下,通过调节map端缓冲的大小,可以避免频繁的磁盘 ...

2020-10-28
1