最新 最热

PySpark 读写 JSON 文件到 DataFrame

PySpark SQL 提供 read.json("path") 将单行或多行(多行)JSON 文件读取到 PySpark DataFrame 并 write.json("path") 保存或写入 JSON 文件的功能,在本教程中,您将学习如何读取单个文件、多个文件、目录中的所有文件进入 ...

2023-09-04
4

优化 Apache Spark 性能:消除 shuffle 以实现高效数据处理

Apache Spark 以其分布式计算能力彻底改变了大数据处理。然而,Spark 的性能可能会受到称为“shuffle”的常见挑战的影响。在本文中,我们将探讨 shuffle 是什么、它的原因、与之相关的问题以及优化 Apache Spark 性能的...

2023-09-02
1

Spark之基本流程(一)

最近在拜读许老师的《大数据处理框架Apache Spark设计与实现》,之前看豆瓣评分很高,阅读了一下果然通俗易懂,在这里记录一下相关的笔记,补充了一些个人理解,如有不对还请指正。参考链接:https://github.com/JerryLead/Spark...

2023-08-24
2

基于Docker搭建大数据集群(四)Spark部署

docker cp spark-2.4.4-bin-hadoop2.7.tar.gz cluster-master:/root/tar

2023-08-17
1

Hive SQL 常用零碎知识

比如event_value是一个json格式的字段,然后想获取里面的id作为单独一列

2023-07-21
4

Spark RDD -> Stage Task

RDD分为两种: Transformation 转换算子, Action 动作算子

2023-07-21
3

Spark计算引擎实战汇总

腾讯云开发者社区是腾讯云官方开发者社区,致力于打造开发者的技术分享型社区。提供专栏,问答,沙龙等产品和服务,汇聚海量精品云计算使用和开发经验,致力于帮助开发者快速成长与发展,营造开放的云计算技术生态圈。...

2023-06-30
1

spark源码系列01-Woker启动Executor过程并向Driver注册

1.launchExecutor Master发送消息让Worker启动Executor

2023-06-29
0

Spark介绍系列03--RDD

RDD(Resilient Distributed Dataset)叫做分布式数据集,是Spark中最基本的数据抽象,它代表一个不可变、可分区、里面的元素可并行计算的集合。RDD具有数据流模型的特点:自动容错、位置感知性调度和可伸缩性。RDD允许用户在...

2023-06-29
3

Spark介绍系列02--安装集群

Apache Mesos  - 一个通用的集群管理器,也可以运行Hadoop MapReduce和服务应用程序。

2023-06-29
3