最新 最热

Spark面试题汇总及答案(推荐收藏)

spark是借鉴了Mapreduce,并在其基础上发展起来的,继承了其分布式计算的优点并进行了改进,spark生态更为丰富,功能更为强大,性能更加适用范围广,mapreduce更简单,稳定性好。主要区别...

2021-12-21
0

图文详解 Spark 总体架构 [禅与计算机程序设计艺术]

本文对Spark总体架构进行描述,本文读者需要一定的Spark的基础知识,至少了解Spark的RDD和DAG。

2021-12-20
0

【Spark重点难点06】SparkSQL YYDS(中)!

在上节课中我们讲解了Spark SQL的来源,Spark DataFrame创建的方式以及常用的算子。这节课继续讲解Spark SQL中的Catalyst优化器和Tungsten,以及Spark SQL的Join策略选择。...

2021-12-16
1

Spark 极简教程

何谓计算引擎,一言以蔽之,就是专门处理数据的程序,在大数据之前,人们用数据库来处理数据,人们常说的SQL,它是一种DSL,它的背后正是数据库的计算引擎,但是数据库的计算和存储通常被集成在一起,统称为数据库引擎。...

2021-12-16
1

Hadoop vs Spark

Hadoop vs SparkBig Data Architecturehttps://www.youtube.com/watch?v=xDpvyu0w0C8

2021-12-16
1

什么是 Spark RDD ?

RDD 是一个弹性的分布式的数据集,是 Spark 中最基础的抽象。它表示了一个可以并行操作的、不可变得、被分区了的元素集合。用户不需要关心底层复杂的抽象处理,直接使用方便的算子处理和计算就可以了。...

2021-12-16
0

Spark Architecture 系统架构

Let's have a look at Apache Spark architecture, including a high level overview and a brief description of some of the key software components.

2021-12-16
0

Spark Shuffle 机制解析

当一个父 RDD 分区的数据分散到了多个子 RDD 的分区中时,这时会产生 Shuffle,即宽依赖之间会有 Shuffle。

2021-12-16
1

Spark 入门简介

Spark 是一个通用的并行计算框架,由加州伯克利大学(UC Berkeley)的 AMP 实验室开发于 2009 年,并于 2010 年开源,2013 年成长为 Apache 旗下在大数据领域最活跃的开源项目之一。 目前 Spark 的版本已经更新到了 2.4.5,并且...

2021-12-16
0

【Spark重点难点】SparkSQL YYDS(上)!

Spark 社区在 1.3 版本发布了 DataFrame。那么,相比 RDD,DataFrame 到底有何不同呢?

2021-12-15
0