最新 最热

2021年大数据Spark(二十四):SparkSQL数据抽象

就易用性而言,对比传统的MapReduce API,Spark的RDD API有了数量级的飞跃并不为过。然而,对于没有MapReduce和函数式编程经验的新手来说,RDD API仍然存在着一定的门槛。...

2021-10-09
0

2021年大数据Spark(二十五):SparkSQL的RDD、DF、DS相关操作

Spark 2.0开始,SparkSQL应用程序入口为SparkSession,加载不同数据源的数据,封装到DataFrame/Dataset集合数据结构中,使得编程更加简单,程序运行更加快速高效。...

2021-10-09
1

2021年大数据Spark(二十七):SparkSQL案例一花式查询和案例二WordCount

前面使用RDD封装数据,实现词频统计WordCount功能,从Spark 1.0开始,一直到Spark 2.0,建立在RDD之上的一种新的数据结构DataFrame/Dataset发展而来,更好的实现数据处理分析。DataFrame 数据结构相当于给RDD加上约束Schema,知...

2021-10-09
1

2021年大数据Spark(二十九):SparkSQL案例四开窗函数

https://www.cnblogs.com/qiuting/p/7880500.html

2021-10-09
0

2021年大数据Spark(三十一):Spark On Hive

Spark SQL模块从发展来说,从Apache Hive框架而来,发展历程:Hive(MapReduce)-> Shark (Hive on Spark) -> Spark SQL(SchemaRDD -> DataFrame -> Dataset),所以SparkSQL天然无缝集成Hive,可以加载Hive表数据进......

2021-10-09
1

2021年大数据Spark(三十三):SparkSQL分布式SQL引擎

SparkSQL模块从Hive框架衍生发展而来,所以Hive提供的所有功能(数据分析交互式方式)都支持,文档:http://spark.apache.org/docs/2.4.5/sql-distributed-sql-engine.html。...

2021-10-09
1

2021年大数据Spark(三十四):Spark Streaming概述

在很多实时数据处理的场景中,都需要用到流式处理(Stream Process)框架,Spark也包含了两个完整的流式处理框架Spark Streaming和Structured Streaming(Spark 2.0出现),先阐述流式处理框架,之后介绍Spark Streaming框架使用。...

2021-10-09
1

2021年大数据Spark(三十五):SparkStreaming数据抽象 DStream

Spark Streaming的核心是DStream,DStream类似于RDD,它实质上一系列的RDD的集合,DStream可以按照秒、分等时间间隔将数据流进行批量的划分。

2021-10-09
1

2021年大数据Spark(三十七):SparkStreaming实战案例二 UpdateStateByKey

统计全局的key的状态,但是就算没有数据输入,他也会在每一个批次的时候返回之前的key的状态。假设5s产生一个批次的数据,那么5s的时候就会更新一次的key的值,然后返回。...

2021-10-09
0

2021年大数据Spark(三十八):SparkStreaming实战案例三 状态恢复 扩展

----SparkStreaming实战案例三 状态恢复-扩展需求在上面的基础之上实现SparkStreaming程序停止之后再启动时还能够接着上次的结果进行累加如:先发送spark,得到spark,1再发送spark,得到spark,2再停止程序,然后重新启...

2021-10-09
0