最新 最热

Spark之Shuffle机制及其文件寻址详解

Certain operations within Spark trigger an event known as the shuffle. The shuffle is Spark’s mechanism for re-distributing data so that it’s grouped differentl...

2022-05-17
0

面试官: ClickHouse 为什么这么快?

这两种方法中,并没有哪一种严格地比另一种好。运行时代码生成可以更好地将多个操作融合在一起,从而充分利用 CPU 执行单元和流水线。矢量化查询执行不是特别实用,因为它涉及必须写到缓存并读回的临时向量。如果 L2 缓存...

2022-05-17
0

大数据开发面试之26个Spark高频考点

大家好,我是梦想家Alex ~ 今天为大家带来大数据开发面试中,关于 Spark 的 28 个高频考点 。

2022-05-14
1

Spark:Dynamic Resource Allocation【动态资源分配】

用户提交Spark应用到Yarn上时,可以通过spark-submit的num-executors参数显示地指定executor个数,随后,ApplicationMaster会为这些executor申请资源,每个executor作为一个Container在Yarn上运行。Spark调度器会把Task按照...

2022-05-12
0

深入浅出聊Taier—大数据分布式可视化DAG任务调度系统

上周,袋鼠云数栈全新技术开源规划——DTMO(DTstack Meetup Online)的第一场直播圆满完成。袋鼠云数栈大数据开发专家、Taier项目主导人偷天为大家带来了《Taier入门介绍》的分享,我们将直播精华部分做了整理,带大家再次回...

2022-05-11
1

Spark有几种部署方式?

Spark部署模式分为Local模式(本地单机模式)和集群模式,在Local模式下,常用于本地开发程序与测试,而集群模式又分为Standalone模式(集群单机模式)、Yarn模式和Mesos模式,关于这三种集群模式的相关介绍具体如下:...

2022-05-11
1

Hudi元数据表(Metadata table)解析

ApacheHudi元数据表可以显著提高查询的读/写性能。元数据表的主要目的是消除“列出文件”操作的要求。

2022-05-11
0

物流项目中SparkSQL的相关调优

实时ETL开发之流计算程序【编程】 编写完成从Kafka消费数据,打印控制台上,其中创建SparkSession实例对象时,需要设置参数值。 package cn.itcast.logistics.etl.realtimeimport cn.itcast.logistics.common.Configurat.....

2022-05-10
0

Spark-Core核心RDD基础03---对照Spark官网学习

https://spark.apache.org/docs/2.3.0/rdd-programming-guide.html#overview

2022-05-09
0

大数据方向毕业设计,选题和实现思路

最近有很多人问我,大数据专业有什么好的毕设项目,我就简单的回复了一下。也有直接问我要源码的....

2022-05-09
1