最新 最热

spark sql解析过程中对tree的遍历(源码详解)

Parsed Logical Plan, Analyzed Logical Plan, Optimized Logical Plan, Physical Plan

2020-10-29
1

Spark SQL 快速入门系列(4) | RDD、DataFrame、DataSet三者的共性和区别

在 SparkSQL 中 Spark 为我们提供了两个新的抽象,分别是DataFrame和DataSet。他们和RDD有什么区别呢?首先从版本的产生上来看:

2020-10-28
1

Spark SQL 快速入门系列(6) | 一文教你如何自定义 SparkSQL 函数

强类型的Dataset和弱类型的DataFrame都提供了相关的聚合函数, 如 count(),countDistinct(),avg(),max(),min()。除此之外,用户可以设定自己的自定义聚合函数

2020-10-28
1

Spark SQL 快速入门系列(7) | SparkSQL如何实现与多数据源交互

Spark SQL 的DataFrame接口支持操作多种数据源. 一个 DataFrame类型的对象可以像 RDD 那样操作(比如各种转换), 也可以用来创建临时表.

2020-10-28
1

Spark SQL 快速入门系列(8) | | Hive与Spark SQL的读写操作

包含 Hive 支持的 Spark SQL 可以支持 Hive 表访问、UDF (用户自定义函数)以及 Hive 查询语言(HiveQL/HQL)等。需要强调的一点是,如果要在 Spark SQL 中包含Hive 的库,并不需要事先安装 Hive。一般来说,最好还是在编译Sp...

2020-10-28
1

Spark SQL 快速入门系列(2) | SparkSession与DataFrame的简单介绍

在老的版本中,SparkSQL 提供两种 SQL 查询起始点:一个叫SQLContext,用于Spark 自己提供的 SQL 查询;一个叫 HiveContext,用于连接 Hive 的查询。

2020-10-28
1

Spark Streaming 快速入门系列(2) | DStream 入门WorldCount案例与解析

一说到入门案例,我们就不得不提wordcount这个案例了哈哈哈。所以 此次还是这个案例

2020-10-28
1

Spark Streaming 快速入门系列(3) | DStream中如何创建数据源

测试过程中,可以通过使用ssc.queueStream(queueOfRDDs)来创建DStream,每一个推送到这个队列中的RDD,都会作为一个DStream处理。

2020-10-28
1

Spark SQL 快速入门系列(3) | DataSet的简单介绍及与DataFrame的交互

DataSet 和 RDD 类似, 但是DataSet没有使用 Java 序列化或者 Kryo序列化, 而是使用一种专门的编码器去序列化对象, 然后在网络上处理或者传输.

2020-10-28
1