最新 最热

Spark笔记10-demo

根据几个实际的应用案例来学会spark中map、filter、take等函数的使用

2021-03-02
1

Spark笔记11-Spark-SQL基础

Hive会将SQL语句转成MapReduce作业,本身不执行SQL语句。 基本执行原理如下图:

2021-03-02
1

Spark笔记12-DataFrame创建、保存

DataFrame可以翻译成数据框,让Spark具备了处理大规模结构化数据的能力。

2021-03-02
0

Spark笔记14-SparkStreaming运行及创建

将实时输入的数据流以时间片(秒级)为单位进行拆分,然后经过Spark引擎之后,以类似批处理的方式处理每个时间片的数据。

2021-03-02
0

Spark笔记15-Spark数据源及操作

数据输入源Spark Streaming中的数据来源主要是系统文件源套接字流RDD对列流高级数据源Kafka文件流交互式环境下执行# 创建文件存放的目录cd /usr/loca/spark/mycodemkdir streamingcd streamingmkdir logfilecd log.....

2021-03-02
0

Spark笔记3-基本概念和流程

RDD:弹性分布式数据集,数据可大可小,动态的变化分区数量,分布式地保存在多台机器的内存当中

2021-03-02
0

Spark笔记4-RDD运行原理

Hadoop不善于处理迭代场景:逻辑斯蒂回归、模拟退火算法、遗传算法等。MapReduce是将中间结果写入磁盘中,下次使用直接从磁盘中取出来,产生两个问题:...

2021-03-02
0

Spark笔记6-RDD创建和操作

RDD是只读的,只能在修改的过程进行修改。转换过程是惰性机制。整个转换过程只是记录转换的轨迹,并不会发生真正的计算。只有遇到行动操作action时候,才会发生真正的计算。三种操作:...

2021-03-02
0

Spark笔记7-RDD持久化和分区

有时候需要访问同一组值,不做持久化,会重复生成,计算机代价和开销很大。持久化作用:

2021-03-02
0

spark加载数据到ES

在日常开发中一定会遇到,spark将计算好的数据load到es中,供后端同学查询使用。下面介绍一下spark写es的方式。 使用scala进行演示,对应的java自己google了。...

2021-03-02
0