最新 最热

全网首发!SparkStreaming的mapWithState,timeout过期时间如何生效

当我在测试SparkStreaming的状态操作mapWithState算子时,当我们设置timeout(3s)的时候,3s过后数据还是不会过期,不对此key进行操作,等到30s左右才会清除过期的数据。...

2022-05-09
0

数据读取与保存

Sequence文件 SequenceFile文件是Hadoop用来存储二进制形式的key-value对而设计的一种平面文件(Flat File)。在SparkContext中,可以调用sequenceFile[keyClass, valueClass](path)。...

2022-05-09
0

电子书丨《Offer来了:Java面试核心知识点精讲.框架篇》

▊《Offer来了:Java面试核心知识点精讲.框架篇》王磊 著电子书售价:49.5元2020年06月出版本书是对Java程序员面试中常见的微服务、网络编程、分布式存储和分布式计算等必备知识点的总结,包括Spring原理及应用、Spring C...

2022-05-09
1

Byzer 多租户支持指南

用户可能通过 Byzer 的上层应用诸如 Notebook 进行任务的提交,任务会通过 Byzer Router 完成路由转发。

2022-05-08
1

【Spark】 Spark的基础环境 Day03

​ 当Spark Application运行到YARN上时,在提交应用时指定master为yarn即可,同时需要告知YARN集群配置信息(比如ResourceManager地址信息),此外需要监控Spark Application,配置历史服务器相关属性。...

2022-05-08
1

Spark的常用算子大总结

作用:返回一个新的RDD,该RDD由每一个输入元素经过func函数转换后组成 2. 需求:创建一个1-10数组的RDD,将所有元素2形成新的RDD (1)创建 scala> var source = sc.parallelize(1 to 10) source: org.apache.spark.rdd.RDD......

2022-05-08
1

Spark_Day07:Spark SQL(DataFrame是什么和数据分析(案例讲解))

在Spark中,DataFrame是一种以RDD为基础的分布式数据集,类似于传统数据库中的二维表格。 DataFrame与RDD的主要区别在于,前者带有schema元信息,即DataFrame所表示的二维表数据集的每一列都带有名称和类型。...

2022-05-08
0

Spark_Day01:Spark 框架概述和Spark 快速入门

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-4yHXs6Sp-1627098349792)(/img/image-20210419160056620.png)]

2022-05-08
1

Note_Logistics_Day01(客快物流项目概述及Docker入门)

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-RadClEeU-1625444773065)(/img/1615516690862.png)]

2022-05-08
1

一图胜千言:大数据入门必备的16张数据流转图(建议收藏)

以上便是本码农总结的15张大数据开发必背的数据流转图,有事没事拿出来看一看,潜移默化自然就记下来了~

2022-05-08
1