spark_字节宝

一起揭开 PySpark 编程的神秘面纱

在开始讲解PySpark程序启动原理之前，我们先来了解一下Spark的一些概念和特性。

spark Python SQL 分布式

2021-09-29

第四范式OpenMLDB: 拓展Spark源码实现高性能Join

Spark是目前最流行的分布式大数据批处理框架，使用Spark可以轻易地实现上百G甚至T级别数据的SQL运算，例如单行特征计算或者多表的Join拼接。

spark SQL scala Python

2021-09-29

一起揭开 PySpark 编程的神秘面纱

Spark 是 UC Berkeley AMP lab 开发的一个集群计算的框架，类似于 Hadoop，但有很多的区别。最大的优化是让计算任务的中间结果可以存储在内存中，不需要每次都写入 HDFS，更适用于需要迭代的 MapReduce 算法场景中，可以获得更...

spark Python SQL 分布式

2021-09-29

Spark性能调优指北：性能优化和故障处理

Spark 官方推荐，Task 数量应该设置为 Spark 作业总 CPU core 数量的 2~3 倍。

spark mapreduce 数据库 SQL 文件存储

2021-09-27

Alluxio集群搭建并整合MapReduce/Hive/Spark

Alluxio是世界上第一个虚拟的分布式存储系统，以内存速度统一了数据访问。它为计算框架和存储系统构建了桥梁，使应用程序能够通过一个公共接口连接到许多存储系统。Alluxio以内存为中心的架构使得数据的访问速度能比现有...

hive spark mapreduce 大数据解决方案大数据

2021-09-26

Spark 理论基石 —— RDD

RDD，学名可伸缩的分布式数据集（Resilient Distributed Dataset）。是一种对数据集形态的抽象，基于此抽象，使用者可以在集群中执行一系列计算，而不用将中间结果落盘。而这正是之前 MR 抽象的一个重要痛点，每一个步骤都需要落盘...

spark 任务调度 scala mapreduce

2021-09-26

如何获取Yarn和Spark UI界面指标信息

ip和port：Yarn ResourceManager active节点的ip地址和端口号

spark HTTP hadoop tcpip yarn

2021-09-24

（二）Superset 1.3图表篇——Time-series Table

本系列文章基于Superset 1.3.0版本。1.3.0版本目前支持分布，趋势，地理等等类型共59张图表。本次1.3版本的更新图表有了一些新的变化，而之前也一直没有做过非常细致的图表教程。...

spark Python

2021-09-24

Hive SQL突然抛出一条异常……

客户端的报错信息，并没有完全展现问题背后的全貌。我们进入 hiveserver2 所在节点查看hiveserver2的日志，可以看到如下相关信息：

Node.js 大数据 hive SQL spark

2021-09-23

Spark的两种核心Shuffle详解（建议收藏）

在 MapReduce 框架中， Shuffle 阶段是连接 Map 与 Reduce 之间的桥梁， Map 阶段通过 Shuffle 过程将数据输出到 Reduce 阶段中。由于 Shuffle 涉及磁盘的读写和网络 I/O，因此 Shuffle 性能的高低直接影响整个程序的性能...

spark mapreduce 数据结构 bash bash指令

2021-09-22

85 86 87 88 89

一起揭开 PySpark 编程的神秘面纱

第四范式OpenMLDB: 拓展Spark源码实现高性能Join

一起揭开 PySpark 编程的神秘面纱

Spark性能调优指北：性能优化和故障处理

Alluxio集群搭建并整合MapReduce/Hive/Spark

Spark 理论基石 —— RDD

如何获取Yarn和Spark UI界面指标信息

（二）Superset 1.3图表篇——Time-series Table

Hive SQL突然抛出一条异常……

Spark的两种核心Shuffle详解（建议收藏）

热门文章

热门手册