最新 最热

Spark 源码(5) - 从 SparkSubmit 开始看任务提交

上次我们已经说完了 Spark Standalone 的 Master 和 Worker 的启动流程,本次我们从一个提交 Spark 作业的命令开始阅读 Spark 任务提交的源码。

2021-10-12
0

昨天的一个问题及答案(关键字Gzip、MapReduce、Spark)

OK,我们知道gzip不可分割了。那么一个10G的gzip文件在HDFS是怎么存储的呢?

2021-10-12
1

Spark 源码(7) - Driver 启动之 SparkContext 初始化

上次阅读到 Master 通知 Worker 启动了一个 Driver,就是启动了一个 JVM,并且开始使用反射的方式执行 DriverWrapper 的 main 方法。

2021-10-12
1

❤️Spark的关键技术回顾,持续更新!【推荐收藏加关注】❤️

集群环境:CDH版本是5.14.0这个版本 但由于spark对应的5.14.0的CDH版本的软件默认的版本是1.6.0同时阉割了SarkSQL,需要重新编译 原因: 因为Cloudera公司认为有了impala就不需要再使用sparkSQL的功能了,同时也是为了推广im...

2021-10-11
0

2021年全网最详细大数据常见端口汇总❤️【建议收藏】❤️

2021大数据领域优质创作博客,带你从入门到精通,该博客每天更新,逐渐完善大数据各个知识体系的文章,帮助大家更高效学习。

2021-10-11
0

2021年大数据Hadoop(二十五):YARN通俗介绍和基本架构

Apache Hadoop YARN (Yet Another Resource Negotiator,另一种资源协调者)是一种新的 Hadoop 资源管理器,它是一个通用资源管理系统和调度平台,可为上层应用提供统一的资源管理和调度,它的引入为集群在利用率、资源统一管理...

2021-10-11
1

2021年大数据Hadoop(二十八):YARN的调度器Scheduler

理想情况下,我们应用对Yarn资源的请求应该立刻得到满足,但现实情况资源往往是有限的,特别是在一个很繁忙的集群,一个应用资源的请求经常需要等待一段时间才能的到相应的资源。在Yarn中,负责给应用分配资源的就是Scheduler...

2021-10-11
1

2021年大数据Spark(五十四):扩展阅读  SparkSQL底层如何执行

和 RDD 不同, SparkSQL 的 Dataset 和 SQL 并不是直接生成计划交给集群执行, 而是经过了一个叫做 Catalyst 的优化器, 这个优化器能够自动帮助开发者优化代码

2021-10-11
1

2021年大数据常用语言Scala(一):Scala简介

----一、Scala简介scala是运行在JVM上的多范式编程语言,同时支持面向对象和面向函数编程多范式:就是包含多种编程思想。目前主流的编程思想有4中,即面向对象、面向过程、面向函数、以及泛型面向函数一句话形容:函数也是一...

2021-10-11
1

Spark调优 | 不可避免的 Join 优化

在阐述Join实现之前,我们首先简单介绍SparkSQL的总体流程,一般地,我们有两种方式使用SparkSQL,一种是直接写sql语句,这个需要有元数据库支持,例如Hive等,另一种是通过Dataset/DataFrame编写Spark应用程序。如下图所示,sql语句...

2021-10-11
0