最新 最热

大数据开发岗面试复习30天冲刺 - 日积月累,每日五题【Day29】——数据倾斜2

解决方案:避免数据源的数据倾斜 实现原理:通过在Hive中对倾斜的数据进行预处理,以及在进行kafka数据分发时尽量进行平均分配。这种方案从根源上解决了数据倾斜,彻底避免了在Spark中执行shuffle类算子,那么肯定就不会有数据...

2022-01-11
1

大数据开发轻量级入门方案

经过这么多年的发展,大数据的技术正处于群雄逐鹿阶段 ,面对这么多技术框架,我们得学会做减法。

2022-01-10
1

Hadoop基础知识及部署模式

在开始Hadoop的部署之前需要了解其基础知识及部分原理,由于本文以部署的介绍为主,篇幅有限,因此只会对这部分内容作简单的阐述,后面有机会会撰写专门的Hadoop原理及基础系列文章。...

2022-01-07
1

2021年教你尝鲜 MLSQL 的N种方式

如果你是个急性子,那么你可以通过在 mlsql.tech 上注册一个账户就可以体验了。这篇文章里有一个快速体验的章节,教大家怎么注册。

2022-01-07
1

查询性能提升3倍!Apache Hudi 查询优化了解下?

从 Hudi 0.10.0版本开始,我们很高兴推出在数据库领域中称为 Z-Order和 Hilbert 空间填充曲线的高级数据布局优化技术的支持。

2022-01-04
1

【精通Spark系列】一文搞懂Spark的运行架构,文末附带大数据Spark的学习路线

在开始讲Spark运行的整体架构之前,先来讲讲为什么会有Spark?这个框架被设计出来是要解决什么问题的?

2022-01-04
1

通过Flink实现个推海量消息数据的实时统计

消息报表主要用于统计消息任务的下发情况。比如,单条推送消息下发APP用户总量有多少,成功推送到手机的数量有多少,又有多少APP用户点击了弹窗通知并打开APP等。通过消息报表,我们可以很直观地看到消息推送的流转情况、消...

2022-01-04
1

Spark编程实战-词频统计

RDD(Rseilient Distributed Datasets)是一个分布式对象集合,本质上是一个只读的分区记录集合,每个RDD可以分成多个分区,每个分区就是一个数据集片段,并且一个RDD的不同分区可以被保存到集群中不同的节点上,从而可以在集群...

2021-12-31
1

Spark集群安装-基于hadoop集群

文章目录hadoop集群下载环境配置集群配置测试

2021-12-31
1