spark_字节宝

2021年大数据Spark（八）：环境搭建集群模式 Standalone HA

Spark Standalone集群是Master-Slaves架构的集群模式，和大部分的Master-Slaves结构集群一样，存在着Master单点故障（SPOF）的问题。

Node.js bash bash指令 spark HTTP

2021-10-09

2021年大数据Spark（九）：Spark On Yarn两种模式总结

包含两个部分：应用管理者AppMaster和运行应用进程Process（如MapReduce程序MapTask和ReduceTask任务），如下图所示：

yarn HTTP spark Node.js

2021-10-09

2021年大数据Spark（十）：环境搭建集群模式 Spark on YARN

Spark运行在YARN上是有2个模式的， 1个叫 Client模式一个叫Cluster模式

spark jar yarn hadoop

2021-10-09

2021年大数据Spark（十一）：应用开发基于IDEA集成环境

实际开发Spark 应用程序使用IDEA集成开发环境，Spark课程所有代码均使用Scala语言开发，利用函数式编程分析处理数据，更加清晰简洁。

Node.js spark jar HTTP scala

2021-10-09

2021年大数据Spark（十二）：Spark Core的RDD详解

1.MR:只提供了map和reduce的API,而且编写麻烦,运行效率低!---早就淘汰了!

分布式 spark 大数据数据结构 api

2021-10-09

2021年大数据Spark（十四）：Spark Core的RDD操作

有一定开发经验的读者应该都使用过多线程，利用多核 CPU 的并行能力来加快运算速率。在开发并行程序时，可以利用类似 Fork/Join 的框架将一个大的任务切分成细小的任务，每个小任务模块之间是相互独立的，可以并行执行，然后将...

CSS Python c语言 spark mapreduce

2021-10-09

2021年大数据Spark（十九）：Spark Core的共享变量

在默认情况下，当Spark在集群的多个不同节点的多个任务上并行运行一个函数时，它会把函数中涉及到的每个变量，在每个任务上都生成一个副本。但是，有时候需要在多个任务之间共享变量，或者在任务(Task)和任务控制节点(Driver P...

编程算法 spark 缓存

2021-10-09

2021年大数据Spark（二十）：Spark Core外部数据源引入

Spark可以从外部存储系统读取数据，比如RDBMs表中或者HBase表中读写数据，这也是企业中常常使用，如：

TDSQLMySQL版 hbase spark 数据库云数据库SQLServer

2021-10-09

2021年大数据Spark（二十二）：内核原理

Spark的核心是根据RDD来实现的，Spark Scheduler则为Spark核心实现的重要一环，其作用就是任务调度。Spark的任务调度就是如何组织任务去处理RDD中每个分区的数据，根据RDD的依赖关系构建DAG，基于DAG划分Stage，将每个Stage中...

spark 任务调度存储

2021-10-09

2021年大数据Spark（二十三）：SparkSQL 概述

Spark SQL允许开发人员直接处理RDD，同时可以查询在Hive上存储的外部数据。Spark SQL的一个重要特点就是能够统一处理关系表和RDD，使得开发人员可以轻松的使用SQL命令进行外部查询，同时进行更加复杂的数据分析。...

Python api spark hive SQL

2021-10-09

82 83 84 85 86

2021年大数据Spark（八）：环境搭建集群模式 Standalone HA

2021年大数据Spark（九）：Spark On Yarn两种模式总结

2021年大数据Spark（十）：环境搭建集群模式 Spark on YARN

2021年大数据Spark（十一）：应用开发基于IDEA集成环境

2021年大数据Spark（十二）：Spark Core的RDD详解

2021年大数据Spark（十四）：Spark Core的RDD操作

2021年大数据Spark（十九）：Spark Core的共享变量

2021年大数据Spark（二十）：Spark Core外部数据源引入

2021年大数据Spark（二十二）：内核原理

2021年大数据Spark（二十三）：SparkSQL 概述

热门文章

热门手册