最新 最热

IDEA创建spark maven项目并连接远程spark集群

2、不同版本scala编译参数可能略有不同,笔者使用的scala版本是2.12.10,scala-archetype-simple插件生成的pom文件

2022-03-28
1

minikube运行sparkPi

spark-on-k8s是spark执行任务的一种方式,当然还有spark-on-yarn等,本文讲述下spark-on-k8s的入门级操作流程,使用的是minikube来搭建单机版的k8s环境,好了废话不多说了,直接如主题:...

2022-03-28
1

Kylin 是什么?

Apache Kylin™是一个开源的、分布式的分析型数据仓库,提供Hadoop/Spark 之上的 SQL 查询接口及多维分析(OLAP)能力以支持超大规模数据,最初由 eBay 开发并贡献至开源社区。它能在亚秒内查询巨大的表。...

2022-03-28
1

2022年Flink面试题整理

Flink 是一个框架和分布式处理引擎,用于对无界和有界数据流进行有状态计算。并且 Flink 提供了数据分布、容错机制以及资源管理等核心功能。Flink提供了诸多高抽象层的API以便用户编写分布式任务: DataSet API, 对静态数...

2022-03-28
1

使用 Spark | 手把手带你十步轻松拿下 Spark SQL 使用操作

在《20张图详解 Spark SQL 运行原理及数据抽象》的第 5 节“SparkSession”中,我们知道了 Spark SQL 就是基于 SparkSession 作为入口实现的。

2022-03-28
1

初识 Spark SQL | 20张图详解 Spark SQL 运行原理及数据抽象

不管是做平台的,还是做应用的,都免不了跟 SQL 打交道。一句“SQL Boy”,虽然是大家的自嘲,但也能说明大数据工程师们跟 SQL 的关系之紧密。

2022-03-28
1

Spark 处理小文件

不论是Hive还是Spark SQL在使用过程中都可能会遇到小文件过多的问题。小文件过多最直接的表现是任务执行时间长,查看Spark log会发现大量的数据移动的日志。我们可以查看log中展现的日志信息,去对应的路径下查看文件的...

2022-03-27
1

【云计算】流式大数据处理的三种框架:Storm,Spark和Samza

许多分布式计算系统都可以实时或接近实时地处理大数据流。本文将对三种Apache框架分别进行简单介绍,然后尝试快速、高度概述其异同。

2022-03-25
1

Spark Shuffle

在分析 Spark Shuffle 内存使用之前。我们首先了解下以下问题:当一个 Spark 子任务 (Task) 被分配到 Executor 上运行时,Spark 管理内存以及消费内存的大体模型是什么样呢?(注:由于 OOM 主要发生在 Executor 端,所以接下来...

2022-03-25
1

spark 内存管理

堆外内存是JVM使用的,对于Spark来说是不可见的。 所以我们大多数讨论的是堆内内存。

2022-03-25
1