Spark_字节宝

【精通Spark系列】弹性分布式数据集RDD快速入门篇

RDD(Resilient Distributed Datasets)，弹性分布式数据集，是分布式内存的一个抽象概念，RDD提供了一种高度受限的共享内存模型，即RDD是只读的记录分区的集合，只能通过在其他RDD执行确定的转换操作（如map、join和group by）而创...

分布式 api spark mapreduce

2022-10-04

java case when用法_sql case when 嵌套

客户那边通过一个“时间范围筛选”控件来动态修改图表的数据。其很多指标的计算逻辑类似于：

编程算法数据分析 spark

2022-10-04

apache 负载均衡_nginx轮询策略配置

Apache负载均衡配置详解，首先需要配置apache的反向代理，可以参考文章： apache反向代理配置

spark 负载均衡 HTTP apache 负载均衡缓存

2022-09-30

Spark常见20个面试题（含大部分答案）

1、什么是宽依赖，什么是窄依赖？哪些算子是宽依赖，哪些是窄依赖？窄依赖就是一个父RDD分区对应一个子RDD分区，如map，filter 或者多个父RDD分区对应一个子RDD分区，如co-partioned join...

https 网络安全 spark 文件存储存储

2022-09-30

如何基于 Spark 和 Z-Order 实现企业级离线数仓降本提效？

市场的变幻，政策的完善，技术的革新……种种因素让我们面对太多的挑战，这仍需我们不断探索、克服。

大数据 spark

2022-09-30

百亿级日志处理稳定性保证的一些技巧

为了给各个业务出报表，我们每天会处理几百亿条原始日志。例行任务用MR/Spark程序编写，为了保证各业务线在上班前正常看到数据，对例行任务的稳定性提出了要求。由于我们会依赖很多中间层数据，集群偶尔异常、数据存在倾斜等...

spark

2022-09-29

代码中的减法

”简单就是美”，这句谚语在软件领域也是非常适用的。比如MapReduce框架，采用分而治之的思想，最原始的数据由各个map处理，reduce将map的结果汇合，这么简单的框架就解决了很多大数据的问题，待Apache将其开源后，引领了大数据开...

开源 mapreduce spark 大数据

2022-09-29

Spark编程技巧

这两个转换都有shuffle过程发生，且都类似map reduce，但是reduceByKey会在map阶段会对相同的key进行聚合，极大的减少了map产生的数据量，进而减少了shuffle的数据量，提高了程序的执行效率...

文件存储 spark 缓存 yarn Node.js

2022-09-29

spark必须知道的几个观点

凡是cluster模式启动的作业，日志都没有打印在本地。因为main()直接在driver上运行

linux spark

2022-09-29

spark运行方式及其常用参数

yarn cluster模式：spark driver和application master在同一个节点上 yarn client模式：spark driver和client在同一个节点上，支持shell

yarn Node.js spark Java linux

2022-09-29

22 23 24 25 26

【精通Spark系列】弹性分布式数据集RDD快速入门篇

java case when用法_sql case when 嵌套

apache 负载均衡_nginx轮询策略配置

Spark常见20个面试题（含大部分答案）

如何基于 Spark 和 Z-Order 实现企业级离线数仓降本提效？

百亿级日志处理稳定性保证的一些技巧

代码中的减法

Spark编程技巧

spark必须知道的几个观点

spark运行方式及其常用参数

热门文章

热门手册