spark_字节宝

Spark之Shuffle机制及其文件寻址详解

Certain operations within Spark trigger an event known as the shuffle. The shuffle is Spark’s mechanism for re-distributing data so that it’s grouped differentl...

linux spark

2022-05-17

面试官: ClickHouse 为什么这么快？

这两种方法中，并没有哪一种严格地比另一种好。运行时代码生成可以更好地将多个操作融合在一起，从而充分利用 CPU 执行单元和流水线。矢量化查询执行不是特别实用，因为它涉及必须写到缓存并读回的临时向量。如果 L2 缓存...

apache linux 编程算法缓存 spark

2022-05-17

大数据开发面试之26个Spark高频考点

大家好，我是梦想家Alex ~ 今天为大家带来大数据开发面试中，关于 Spark 的 28 个高频考点。

spark 大数据编程算法 mapreduce yarn

2022-05-14

Spark：Dynamic Resource Allocation【动态资源分配】

用户提交Spark应用到Yarn上时，可以通过spark-submit的num-executors参数显示地指定executor个数，随后，ApplicationMaster会为这些executor申请资源，每个executor作为一个Container在Yarn上运行。Spark调度器会把Task按照...

linux spark shell

2022-05-12

深入浅出聊Taier—大数据分布式可视化DAG任务调度系统

上周，袋鼠云数栈全新技术开源规划——DTMO（DTstack Meetup Online）的第一场直播圆满完成。袋鼠云数栈大数据开发专家、Taier项目主导人偷天为大家带来了《Taier入门介绍》的分享，我们将直播精华部分做了整理，带大家再次回...

spark https 网络安全大数据 flink

2022-05-11

Spark有几种部署方式？

Spark部署模式分为Local模式(本地单机模式)和集群模式，在Local模式下，常用于本地开发程序与测试，而集群模式又分为Standalone模式(集群单机模式)、Yarn模式和Mesos模式，关于这三种集群模式的相关介绍具体如下：...

yarn Node.js spark hadoop

2022-05-11

Hudi元数据表（Metadata table)解析

ApacheHudi元数据表可以显著提高查询的读/写性能。元数据表的主要目的是消除“列出文件”操作的要求。

spark HTML linux 文件存储

2022-05-11

物流项目中SparkSQL的相关调优

实时ETL开发之流计算程序【编程】编写完成从Kafka消费数据，打印控制台上，其中创建SparkSession实例对象时，需要设置参数值。 package cn.itcast.logistics.etl.realtimeimport cn.itcast.logistics.common.Configurat.....

spark

2022-05-10