最新 最热

查询hudi数据集

从概念上讲,Hudi物理存储一次数据到DFS上,同时在其上提供三个逻辑视图,如之前所述。数据集同步到Hive Metastore后,它将提供由Hudi的自定义输入格式支持的Hive外部表。一旦提供了适当的Hudi捆绑包,就可以通过Hive、Spark和...

2021-04-13
1

什么是Hudi? ​

Hudi(发音为“hoodie”)摄取与管理处于DFS(HDFS 或云存储)之上的大型分析数据集并为查询访问提供三个逻辑视图。

2021-04-13
0

Spark学习使用笔记 - Scala篇(3)- 映射,元组

映射: def constructMap = { //构造一个不可变Map[String Int] val scores = Map("Alice" -> 10, "aaa" -> 9, "bbb" -> 5) //构造一个可变Map[String,Int] val mscore......

2021-04-12
1

2021_03_28

A 问题A1 背压机制Spark 1.5以前版本,用户如果要限制 Receiver的数据接收速率,可以通过设置静态配制参数 “spark.streaming.receiver.maxRate”的值来实现,此举虽然可以通过限制接收速率,来适配当前的处理能力,防止内存溢...

2021-04-12
0

2021_03_25

A 问题1.spark⽀持故障恢复的⽅式? 2.详细说一下hadoop和spark的相同点和不同点? 3.spark如何保证宕机迅速恢复?A1 spark⽀持故障恢复的⽅式?主要包括两种⽅式...

2021-04-12
1

SparkML(1)环境构建

首先,我们需要Docker。毕竟我们的重点并不是在安装配置spark上面,怎么简便,怎么做是最好的啦。不过为了适用尽量多的场景,我们会配置一个单机集群,同时配置Pycharm远程调试。...

2021-04-12
0

Pandas vs Spark:获取指定列的N种方式

本篇继续Pandas与Spark常用操作对比系列,针对常用到的获取指定列的多种实现做以对比。

2021-04-12
0

with as 语句真的会把查询的数据存内存嘛?

这个参数在默认情况下是-1(关闭的);当开启(大于0),比如设置为2,则如果with..as语句被引用2次及以上时,会把with..as语句生成的table物化,从而做到with..as语句只执行一次,来提高效率。...

2021-04-09
1

Eat pyspark 2nd day | 1小时看懂Spark的基本原理

不同于MapReduce将中间计算结果放入磁盘中,Spark采用内存存储中间计算结果,减少了迭代运算的磁盘IO,并通过并行计算DAG图的优化,减少了不同任务之间的依赖,降低了延迟等待时间。内存计算下,Spark 比 MapReduce 快100倍。...

2021-04-08
1

Eat pyspark 1st day | 快速搭建你的Spark开发环境

下载地址:https://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html

2021-04-08
0