最新 最热

「Spark从精通到重新入门(二)」Spark中不可不知的动态资源分配

资源是影响 Spark 应用执行效率的一个重要因素。Spark 应用中真正执行 task 的组件是 Executor,可以通过spark.executor.instances 指定 Spark 应用的 Executor 的数量。在运行过程中,无论 Executor上是否有 task 在执...

2021-12-14
1

【最全的大数据面试系列】Spark面试题大全(二)

通常读取数据 PROCESS_LOCAL>NODE_LOCAL>ANY,尽量使数据以PROCESS_LOCAL 或 NODE_LOCAL 方式读取。其中 PROCESS_LOCAL 还和cache 有关,如果 RDD 经常用的话将该 RDD cache 到内存中,注意,由于cache 是 lazy 的,所以必须通...

2021-12-14
1

【最全的大数据面试系列】Spark面试题大全(一)

编写 shell 脚本,定期检测 master 状态,出现宕机后对 master 进行重启操作

2021-12-14
1

Apache Hudi 0.10.0版本重磅发布!

在发布的Apache Hudi 0.10.0版本中共解决了388个issue,包括众多重磅特性支持以及Bug修复。

2021-12-13
1

pyspark on hpc

本地内部集群资源有限,简单的数据处理跑了3天。HPC上有很多计算资源,出于先吃锅里的再吃碗里的思想,琢磨先充分利用共有资源。简单调研下,也不是很复杂的事情。...

2021-12-10
1

spark有哪几种共享变量

spark一个非常重要的特性就是共享变量。 默认情况下,如果在一个算子的函数中使用到了某个外部的变量,那么这个变量的值会被拷贝到每个task中。此时每个task只能操作自己的那份变量副本。如果多个task想要共享某个变量,那...

2021-12-10
1

JuiceFS 在大搜车数据平台的实践

大搜车已经搭建起比较完整的汽车产业互联网协同生态。在这一生态中,不仅涵盖了大搜车已经数字化的全国 90% 中大型二手车商、9000+ 家 4S 店和 70000+ 家新车二网,还包括大搜车旗下车易拍、车行168、运车管家、布雷克索...

2021-12-10
1

万字详解 Spark 数据倾斜及解决方案(建议收藏)

一、调优概述二、数据倾斜发生时的现象三、数据倾斜发生的原理四、如何定位导致数据倾斜的代码五、某个task执行特别慢的情况六、某个task莫名其妙内存溢出的情况七、查看导致数据倾斜的key的数据分布情况八、数据倾...

2021-12-09
1

【Spark重点难点】你的代码跑起来谁说了算?(内存管理)

这节课我们要讲的是Spark中的 【内存模型】,也就是决定我们Spark代码运行所需要的资源信息。

2021-12-08
1

Spark是什么?与MapReduce的对比

Spark是一个基于内存的集群计算系统,是一个分布式的计算框架。Spark可以将计算任务分发到多个机器并行计算。目前Spark集成了SQL查询,图处理,机器学习,流处理等,在计算引擎中生态比较健全,所以其适用范围比较广。Spark主要...

2021-12-08
1