最新 最热

Firestorm - 腾讯自研Remote Shuffle Service在Spark云原生场景的实践

图片来源:pexels 背景 Firestorm Shuffle是分布式计算框架用来衔接上下游任务的数据重分布过程,在分布式计算中所有涉及到数据上下游衔接的过程都可以理解为shuffle。针对不同的分布式框架,shuffle有几种实现形态: 基于文...

2021-11-19
1

大数据——大数据默认端口号列表

SecondaryNameNode HTTP UI 50090 9868

2021-11-17
1

十二个经典的大数据项目

1,离线数据处理:项目内容为通过对网站访问日志的采集和清洗,结合数据库中的结构化用户数据,统计并展示网站的PV、UV情况,以对网站的运行情况进行监控。通过此项目,回顾并串联前面讲述的离线数据处理相关技术,如:FIune、Sqoop...

2021-11-17
1

spark sql非join情况的谓词下推优化器PushPredicateThroughNonJoin

spark sql谓词下推逻辑优化器PushDownPredicates包含了三个规则:

2021-11-17
1

SparkSQL并行执行多个Job的探索

Spark是以TaskSetManager为单元来调度任务的。通常情况下,任务队列中只会有一个TaskSetManager,而通过多线程提交多个Job时,则会有多个TaskSetManager被丢到任务队列中。在有空闲资源的情况下,谁会从队列里被取出来执行就...

2021-11-16
1

万文讲解知乎实时数仓架构演进

"数据智能" (Data Intelligence) 有一个必须且基础的环节,就是数据仓库的建设,同时,数据仓库也是公司数据发展到一定规模后必然会提供的一种基础服务。从智能商业的角度来讲,数据的结果代...

2021-11-15
1

Spark性能优化和故障处理

Spark 官方推荐,Task 数量应该设置为 Spark 作业总 CPU core 数量的 2~3 倍。

2021-11-15
1

Spark sql Expression的deterministic属性

在sql语句中,除了select、from等关键字以外,其他大部分元素都可以理解为expression,比如:

2021-11-10
1

数据治理之元数据管理的利器——Atlas入门宝典

随着数字化转型的工作推进,数据治理的工作已经被越来越多的公司提上了日程。作为Hadoop生态最紧密的元数据管理与发现工具,Atlas在其中扮演着重要的位置。但是其官方文档不是很丰富,也不够详细。所以整理了这份文档供大...

2021-11-09
1

Spark面试八股文(上万字面试必备宝典)

rdd 分布式弹性数据集,简单的理解成一种数据结构,是 spark 框架上的通用货币。所有算子都是基于 rdd 来执行的,不同的场景会有不同的 rdd 实现类,但是都可以进行互相转换。rdd 执行过程中会形成 dag 图,然后形成 lineage ...

2021-11-08
1