最新 最热

【精通Spark系列】弹性分布式数据集RDD快速入门篇

RDD(Resilient Distributed Datasets),弹性分布式数据集, 是分布式内存的一个抽象概念,RDD提供了一种高度受限的共享内存模型,即RDD是只读的记录分区的集合,只能通过在其他RDD执行确定的转换操作(如map、join和group by)而创...

2022-10-04
1

java case when用法_sql case when 嵌套

客户那边通过一个“时间范围筛选”控件来动态修改图表的数据。其很多指标的计算逻辑类似于:

2022-10-04
1

apache 负载均衡_nginx轮询策略配置

Apache负载均衡配置详解,首先需要配置apache的反向代理,可以参考文章: apache反向代理配置

2022-09-30
1

Spark常见20个面试题(含大部分答案)

1、什么是宽依赖,什么是窄依赖?哪些算子是宽依赖,哪些是窄依赖? 窄依赖就是一个父RDD分区对应一个子RDD分区,如map,filter 或者多个父RDD分区对应一个子RDD分区,如co-partioned join...

2022-09-30
1

如何基于 Spark 和 Z-Order 实现企业级离线数仓降本提效?

市场的变幻,政策的完善,技术的革新……种种因素让我们面对太多的挑战,这仍需我们不断探索、克服。

2022-09-30
1

百亿级日志处理稳定性保证的一些技巧

为了给各个业务出报表,我们每天会处理几百亿条原始日志。例行任务用MR/Spark程序编写,为了保证各业务线在上班前正常看到数据,对例行任务的稳定性提出了要求。由于我们会依赖很多中间层数据,集群偶尔异常、数据存在倾斜等...

2022-09-29
1

代码中的减法

”简单就是美”,这句谚语在软件领域也是非常适用的。比如MapReduce框架,采用分而治之的思想,最原始的数据由各个map处理,reduce将map的结果汇合,这么简单的框架就解决了很多大数据的问题,待Apache将其开源后,引领了大数据开...

2022-09-29
1

Spark编程技巧

这两个转换都有shuffle过程发生,且都类似map reduce,但是reduceByKey会在map阶段会对相同的key进行聚合,极大的减少了map产生的数据量,进而减少了shuffle的数据量,提高了程序的执行效率...

2022-09-29
1

spark必须知道的几个观点

凡是cluster模式启动的作业,日志都没有打印在本地。因为main()直接在driver上运行

2022-09-29
1

spark运行方式及其常用参数

yarn cluster模式:spark driver和application master在同一个节点上 yarn client模式:spark driver和client在同一个节点上,支持shell

2022-09-29
1