最新 最热

一起揭开 PySpark 编程的神秘面纱

在开始讲解PySpark程序启动原理之前,我们先来了解一下Spark的一些概念和特性。

2021-09-29
0

第四范式OpenMLDB: 拓展Spark源码实现高性能Join

Spark是目前最流行的分布式大数据批处理框架,使用Spark可以轻易地实现上百G甚至T级别数据的SQL运算,例如单行特征计算或者多表的Join拼接。

2021-09-29
1

一起揭开 PySpark 编程的神秘面纱

Spark 是 UC Berkeley AMP lab 开发的一个集群计算的框架,类似于 Hadoop,但有很多的区别。最大的优化是让计算任务的中间结果可以存储在内存中,不需要每次都写入 HDFS,更适用于需要迭代的 MapReduce 算法场景中,可以获得更...

2021-09-29
0

Spark性能调优指北:性能优化和故障处理

Spark 官方推荐,Task 数量应该设置为 Spark 作业总 CPU core 数量的 2~3 倍。

2021-09-27
1

Alluxio集群搭建并整合MapReduce/Hive/Spark

Alluxio是世界上第一个虚拟的分布式存储系统,以内存速度统一了数据访问。它为计算框架和存储系统构建了桥梁,使应用程序能够通过一个公共接口连接到许多存储系统。Alluxio以内存为中心的架构使得数据的访问速度能比现有...

2021-09-26
1

Spark 理论基石 —— RDD

RDD,学名可伸缩的分布式数据集(Resilient Distributed Dataset)。是一种对数据集形态的抽象,基于此抽象,使用者可以在集群中执行一系列计算,而不用将中间结果落盘。而这正是之前 MR 抽象的一个重要痛点,每一个步骤都需要落盘...

2021-09-26
1

如何获取Yarn和Spark UI界面指标信息

ip和port:Yarn ResourceManager active节点的ip地址和端口号

2021-09-24
1

(二)Superset 1.3图表篇——Time-series Table

本系列文章基于Superset 1.3.0版本。1.3.0版本目前支持分布,趋势,地理等等类型共59张图表。本次1.3版本的更新图表有了一些新的变化,而之前也一直没有做过非常细致的图表教程。...

2021-09-24
0

Hive SQL突然抛出一条异常……

客户端的报错信息,并没有完全展现问题背后的全貌。我们进入 hiveserver2 所在节点查看hiveserver2的日志,可以看到如下相关信息:

2021-09-23
1

Spark的两种核心Shuffle详解(建议收藏)

在 MapReduce 框架中, Shuffle 阶段是连接 Map 与 Reduce 之间的桥梁, Map 阶段通过 Shuffle 过程将数据输出到 Reduce 阶段中。由于 Shuffle 涉及磁盘的读写和网络 I/O,因此 Shuffle 性能的高低直接影响整个程序的性能...

2021-09-22
1