最新 最热

Spark中使用RDD算子GroupBy做词频统计的方法

测试文件在本地D://tmp/spark.txt,Spark采用Local模式运行,Spark版本3.2.0,Scala版本2.12,集成idea开发环境。

2024-07-25
1

Spark SQL实战(06)-RDD与DataFrame的互操作

这种基于反射的方法可使代码更简洁,在编写 Spark 应用程序时已知schema时效果很好

2024-03-25
1

Spark记录 - 乐享诚美

一、Spark 的5大优势: 1. 更高的性能。因为数据被加载到集群主机的分布式内存中。数据可以被快速的转换迭代,并缓存用以后续的频繁访问需求。在数据全部加载到内存的情况下,Spark可以比Hadoop快100倍,在内存不够存放所有...

2023-10-18
1

【Python】PySpark 数据计算 ⑤ ( RDD#sortBy方法 - 排序 RDD 中的元素 )

RDD#sortBy 方法 用于 按照 指定的 键 对 RDD 中的元素进行排序 , 该方法 接受一个 函数 作为 参数 , 该函数从 RDD 中的每个元素提取 排序键 ;

2023-10-11
1

【Python】PySpark 数据计算 ② ( RDD#flatMap 方法 | RDD#flatMap 语法 | 代码示例 )

RDD#map 方法 可以 将 RDD 中的数据元素 逐个进行处理 , 处理的逻辑 需要用外部 通过 参数传入 map 函数 ;

2023-10-11
1

因果推断(四)断点回归(RD)

在传统的因果推断方法中,有一种方法可以控制观察到的混杂因素和未观察到的混杂因素,这就是断点回归,因为它只需要观察干预两侧的数据,是否存在明显的断点。...

2023-09-07
1

Spark RDD -> Stage Task

RDD分为两种: Transformation 转换算子, Action 动作算子

2023-07-21
1

Spark介绍系列03--RDD

RDD(Resilient Distributed Dataset)叫做分布式数据集,是Spark中最基本的数据抽象,它代表一个不可变、可分区、里面的元素可并行计算的集合。RDD具有数据流模型的特点:自动容错、位置感知性调度和可伸缩性。RDD允许用户在...

2023-06-29
1

大数据随记 —— DataFrame 与 RDD 之间的相互转换

在 Spark SQL 中有两种方式可以在 DataFrame 和 RDD 中进行转换:

2023-05-07
1

大数据随记 —— Spark Core 与 RDD 简介

Spark Core 是 Spark 的核心,Spark SQL、Spark Streaming、MLib、GraphX 等都需要在 Spark Core 的基础上进行操作。Spark Core 定义了 RDD、DataFrame 和 DataSet,而 Spark Core 的核心概念是 RDD(Resilient ......

2023-05-07
1