最新 最热

一次 Spark SQL 性能提升10倍的经历

是酱紫的,简单来说:并发执行 spark job 的时候,并发的提速很不明显。类似于我们内部有一个系统给分析师用,他们写一些 sql,在我们的 spark cluster 上跑。随着分析师越来越多,sql job 也越来越多,等待运行的时间也越来越长,我...

2021-01-06
1

深入浅出Spark:存储系统

专题介绍:2009 年,Spark 诞生于加州大学伯克利分校的 AMP 实验室(the Algorithms, Machines and People lab),并于 2010 年开源。2013 年,Spark 捐献给阿帕奇软件基金会(Apache Software Foundation),并于 2014 年成为 A......

2021-01-06
1

漫谈千亿级数据优化实践:数据倾斜

相信大部分做数据的童鞋们都会遇到数据倾斜,数据倾斜会发生在数据开发的各个环节中,比如:

2021-01-06
1

大数据技术体系梳理

来一起认识下大数据的技术框架有哪些,它们分别用于解决哪些问题?它们的内在逻辑和适用场景有哪些?OK,一起去探索下。

2021-01-05
1

7道SparkSQL编程练习题

这些练习题基本可以在15行代码以内完成,如果遇到困难,建议回看上一节SparkSQL的介绍。

2021-01-04
1

Spark History Server自动删除日志文件

公司的计算平台上,写入spark-history目录日志文件数超过设定阈值(1048576),导致任务失败。

2021-01-04
1

【Spark Operator】webhook的NamespaceSelector和ObjectSelector

之前走读 Spark Opeartor Webhook 部分的代码的时候发现,因为业务种类很多,我们需要在 webhook 层加很多参数和配置来控制用户的一些行为但是发现原生的 Spark Operator 只接受 NamespaceSelector 也就是这种行为的控制...

2020-12-31
1

计算引擎之下,存储之上 - 数据湖初探

随着移动互联网,物联网技术的发展,数据的应用逐渐从 BI 报表可视化往机器学习、预测分析等方向发展,即 BI 到 AI 的转变。

2020-12-29
1

大数据OLAP系统(2)——开源组件篇

开源大数据OLAP组件,可以分为MOLAP和ROLAP两类。ROLAP中又可细分为MPP数据库和SQL引擎两类。对于SQL引擎又可以再细分为基于MPP架构的SQL引擎和基于通用计算框架的SQL引擎:...

2020-12-28
1

从Druid到ClickHouse | eBay广告平台数据OLAP实战

本文介绍eBay广告数据平台的基本情况,并对比分析了ClickHouse与Druid的使用特点。基于ClickHouse表现出的良好性能和扩展能力,本文介绍了如何将eBay广告系统从Druid迁移至ClickHouse,希望能为同业人员带来一定的启发。...

2020-12-28
1