最新 最热

Spark重要知识汇总

RDD(Resilient Distributed Dataset)弹性分布式数据集,是Spark中最基本的数据抽象,代表一个不可变、可分区、里面的元素可并行计算的集合。

2024-08-02
1

Spark UI (2) - Stages页面

Stages页面会显示作业所有的stage信息, 不区分stage属于哪个job. 如图:

2022-09-05
1

Spark UI基本介绍

Spark UI是反映一个Spark作业执行情况的web页面, 用户可以通过Spark UI观察Spark作业的执行状态, 分析可能存在的问题.。本文会介绍Spark UI的相关内容和常用的分析方法, 帮助大家更快看懂Spark究竟是如何执行代码以...

2022-09-05
1

Spark UI (1) - Jobs页面

在Jobs页面可以看到上面的SQL生成了3个job, 该页面还有一个Event Timeline的链接, 点击可以看到作业的时间轴。

2022-09-05
1

Spark UI (3、4、5) - Storage、Environment、Executors页面

Storage页面展示的是作业在执行过程中缓存(cache)的数据信息, 包含cache rdd的大小和分布节点.

2022-09-05
1

分享一下Spark History Server搭建以及使用s3路径的eventlog的坑

完成了spark on k8s的部署和测试,现在需要一个能够查看spark任务执行情况的ui,原先采用yarn资源管理器ui链接到spark-web-ui,由于yarn集群下的机器ip固定,可以通过配置本地代理的方式访问它,现在去掉了yarn,自己需要搭建一...

2022-06-07
1

PySpark UD(A)F 的高效使用

Spark无疑是当今数据科学和大数据领域最流行的技术之一。尽管它是用Scala开发的,并在Java虚拟机(JVM)中运行,但它附带了Python绑定,也称为PySpark,其API深受panda的影响。在功能方面,现代PySpark在典型的ETL和数据处理方面...

2021-09-10
1