rdd_字节宝

首页 / 技术

Spark中使用RDD算子GroupBy做词频统计的方法

测试文件在本地D://tmp/spark.txt，Spark采用Local模式运行，Spark版本3.2.0，Scala版本2.12，集成idea开发环境。

rdd 遍历测试统计 spark

2024-07-25

16

Spark SQL实战(06)-RDD与DataFrame的互操作

这种基于反射的方法可使代码更简洁，在编写 Spark 应用程序时已知schema时效果很好

编程反射接口 dataframe rdd

2024-03-25

17

Spark记录 - 乐享诚美

一、Spark 的5大优势： 1. 更高的性能。因为数据被加载到集群主机的分布式内存中。数据可以被快速的转换迭代，并缓存用以后续的频繁访问需求。在数据全部加载到内存的情况下，Spark可以比Hadoop快100倍，在内存不够存放所有...

分布式 spark rdd 内存数据

2023-10-18

16

【Python】PySpark 数据计算 ⑤ ( RDD#sortBy方法 - 排序 RDD 中的元素 )

RDD#sortBy 方法用于按照指定的键对 RDD 中的元素进行排序 , 该方法接受一个函数作为参数 , 该函数从 RDD 中的每个元素提取排序键 ;

Python pyspark rdd 排序数据

2023-10-11

17

【Python】PySpark 数据计算 ② ( RDD#flatMap 方法 | RDD#flatMap 语法 | 代码示例 )

RDD#map 方法可以将 RDD 中的数据元素逐个进行处理 , 处理的逻辑需要用外部通过参数传入 map 函数 ;

Python pyspark rdd 数据语法

2023-10-11

17

因果推断（四）断点回归（RD）

在传统的因果推断方法中，有一种方法可以控制观察到的混杂因素和未观察到的混杂因素，这就是断点回归，因为它只需要观察干预两侧的数据，是否存在明显的断点。...

data model rdd 模型数据

2023-09-07

17

Spark RDD -> Stage Task

RDD分为两种: Transformation 转换算子, Action 动作算子

2023-07-21

16

Spark介绍系列03--RDD

RDD（Resilient Distributed Dataset）叫做分布式数据集，是Spark中最基本的数据抽象，它代表一个不可变、可分区、里面的元素可并行计算的集合。RDD具有数据流模型的特点：自动容错、位置感知性调度和可伸缩性。RDD允许用户在...

spark rdd 函数基础数据

2023-06-29

17

大数据随记 —— DataFrame 与 RDD 之间的相互转换

在 Spark SQL 中有两种方式可以在 DataFrame 和 RDD 中进行转换：

大数据 dataframe rdd 对象反射

2023-05-07

17

大数据随记 —— Spark Core 与 RDD 简介

Spark Core 是 Spark 的核心，Spark SQL、Spark Streaming、MLib、GraphX 等都需要在 Spark Core 的基础上进行操作。Spark Core 定义了 RDD、DataFrame 和 DataSet，而 Spark Core 的核心概念是 RDD（Resilient ......

spark 大数据 core rdd 数据

2023-05-07

17

1 2