Spark_字节宝

IDEA创建spark maven项目并连接远程spark集群

2、不同版本scala编译参数可能略有不同，笔者使用的scala版本是2.12.10，scala-archetype-simple插件生成的pom文件

scala ide spark

2022-03-28

minikube运行sparkPi

spark-on-k8s是spark执行任务的一种方式，当然还有spark-on-yarn等，本文讲述下spark-on-k8s的入门级操作流程，使用的是minikube来搭建单机版的k8s环境，好了废话不多说了，直接如主题：...

spark https 网络安全 kubernetes 容器镜像服务

2022-03-28

Kylin 是什么?

Apache Kylin™是一个开源的、分布式的分析型数据仓库，提供Hadoop/Spark 之上的 SQL 查询接口及多维分析（OLAP）能力以支持超大规模数据，最初由 eBay 开发并贡献至开源社区。它能在亚秒内查询巨大的表。...

hadoop SQL apache 大数据 spark

2022-03-28

2022年Flink面试题整理

Flink 是一个框架和分布式处理引擎，用于对无界和有界数据流进行有状态计算。并且 Flink 提供了数据分布、容错机制以及资源管理等核心功能。Flink提供了诸多高抽象层的API以便用户编写分布式任务： DataSet API，对静态数...

分布式编程算法 spark 数据结构 api

2022-03-28

使用 Spark | 手把手带你十步轻松拿下 Spark SQL 使用操作

在《20张图详解 Spark SQL 运行原理及数据抽象》的第 5 节“SparkSession”中，我们知道了 Spark SQL 就是基于 SparkSession 作为入口实现的。

SQL spark Python hive 大数据

2022-03-28

初识 Spark SQL | 20张图详解 Spark SQL 运行原理及数据抽象

不管是做平台的，还是做应用的，都免不了跟 SQL 打交道。一句“SQL Boy”，虽然是大家的自嘲，但也能说明大数据工程师们跟 SQL 的关系之紧密。

spark Python hive api analyzer

2022-03-28

Spark 处理小文件

不论是Hive还是Spark SQL在使用过程中都可能会遇到小文件过多的问题。小文件过多最直接的表现是任务执行时间长，查看Spark log会发现大量的数据移动的日志。我们可以查看log中展现的日志信息，去对应的路径下查看文件的...

mapreduce hive spark SQL Node.js

2022-03-27

【云计算】流式大数据处理的三种框架：Storm，Spark和Samza

许多分布式计算系统都可以实时或接近实时地处理大数据流。本文将对三种Apache框架分别进行简单介绍，然后尝试快速、高度概述其异同。

编程算法 spark apache windows

2022-03-25

Spark Shuffle

在分析 Spark Shuffle 内存使用之前。我们首先了解下以下问题：当一个 Spark 子任务 (Task) 被分配到 Executor 上运行时，Spark 管理内存以及消费内存的大体模型是什么样呢？（注：由于 OOM 主要发生在 Executor 端，所以接下来...

linux spark

2022-03-25

spark 内存管理

堆外内存是JVM使用的，对于Spark来说是不可见的。所以我们大多数讨论的是堆内内存。

缓存 spark

2022-03-25

58 59 60 61 62

IDEA创建spark maven项目并连接远程spark集群

minikube运行sparkPi

Kylin 是什么?

2022年Flink面试题整理

使用 Spark | 手把手带你十步轻松拿下 Spark SQL 使用操作

初识 Spark SQL | 20张图详解 Spark SQL 运行原理及数据抽象

Spark 处理小文件

【云计算】流式大数据处理的三种框架：Storm，Spark和Samza

Spark Shuffle

spark 内存管理

热门文章

热门手册