最新 最热

Spark on K8S 在有赞的实践

随着近几年业务快速发展与迭代,大数据的成本也水涨船高,如何优化成本,建设低成本高效率的底层服务成为了有赞数据基础平台2020年的主旋律。本文主要介绍了随着云原生时代的到来,经历7年发展的有赞离线计算平台如何拥抱云...

2021-03-04
1

系列文章一:精选大数据面试真题10道(混合型)-附答案详细解析

大数据笔面试系列文章分为两种类型:混合型(即一篇文章中会有多个框架的知识点—融会贯通);专项型(一篇文章针对某个框架进行深入解析—专项演练)。...

2021-03-04
1

Spark底层执行原理详细解析(深度好文,建议收藏)

Apache Spark是用于大规模数据处理的统一分析引擎,基于内存计算,提高了在大数据环境下数据处理的实时性,同时保证了高容错性和高可伸缩性,允许用户将Spark部署在大量硬件之上,形成集群。...

2021-03-04
1

与 Hadoop 对比,大厂技术栈们是如何看待 Spark 技术?

首先看一下Hadoop解决了什么问题,Hadoop就是解决了大数据(大到一台计算机无法进行存储,一台计算机无法在要求的时间内进行处理)的可靠存储和处理。...

2021-03-03
1

工作经验分享:Spark调优【优化后性能提升1200%】

问题导读1.本文遇到了什么问题?2.遇到问题后,做了哪些分析?3.本文解决倾斜使用哪些方法?4.本次数据倾斜那种方法更有效?5.解决性能优化问题的原理是什么?优化后效果1.业务处理中存在复杂的多表关联和计算逻辑(原始数据达百亿...

2021-03-03
1

网易Kyuubi

网易在Spark多租户方面的工作,这个项目叫做Kyuubi(该项目的开源地址: https://github.com/netease-bigdata/kyuubi https://github.com/yaooqinn/kyuubi),实际上是类似于HiveSever2的程序。...

2021-03-03
1

EMR Remote Shuffle Service

ESS(EMR Remote Shuffle Service)是EMR在优化计算引擎的Shuffle操作上,推出的扩展组件。

2021-03-03
1

大数据开发:Spark入门详解

众所周知,Spark 它是专门为大规模数据处理而设计的快速通用计算引擎,因此Spark它在数据的挖掘等领域便有着非常广泛的应用,而从现阶段来讲的话它也已经形成了一个高速发展并且应用相当广泛的生态系统了。所以,今天这篇文...

2021-03-02
1

Spark笔记17-Structured Streaming

Structured Streaming将实时数据视为一张正在不断添加数据的表。

2021-03-02
1

MLlib

使用Spark SQL中的DF作为数据集,可以容纳各种数据类型。DF被ML Pinline用来存储源数据。DF中的列可以是:

2021-03-02
1