最新 最热

数据处理日常之Spark-Stage与Shuffle

Spark Stage, DAG(Directed Acyclic Graph)Spark 划分 Stage 的依据是其根据提交的 Job 生成的 DAG,在离散数学中我们学到了一个 有向无环图(Directed Acyclic Graph) 的概念,再生产环境中,我写的任务仅仅是 有向树(Dire...

2021-07-01
1

[源码解析] 深度学习分布式训练框架 horovod (8) --- on spark

Horovod 是Uber于2017年发布的一个易于使用的高性能的分布式训练框架,在业界得到了广泛应用。

2021-07-01
1

一图胜千言:大数据入门必备的15张数据流转图(建议收藏)

以上便是本码农总结的15张大数据开发必背的数据流转图,有事没事拿出来看一看,潜移默化自然就记下来了~

2021-07-01
1

大数据入门:Spark是否依赖Hadoop?

犹记得,Spark在2013年才开始陆续传到国内,而再此之前,大数据领域可以说是Hadoop的天下。但是仅在一年多左右的时间,Spark就迅速成为了新一代的大数据框架的选择,光环甚至一度超过Hadoop,而关于Hadoop和Spark的争议,也一直没...

2021-06-29
1

Pyspark学习笔记(四)弹性分布式数据集 RDD(上)

RDD(弹性分布式数据集) 是 PySpark 的基本构建块,它是容错、不可变的 分布式对象集合。

2021-06-29
1

用PySpark开发时的调优思路(上)

这一小节的内容算是对pyspark入门的一个ending了,全文主要是参考学习了美团Spark性能优化指南的基础篇和高级篇内容,主体脉络和这两篇文章是一样的,只不过是基于自己学习后的理解进行了一次总结复盘,而原文中主要是用Java...

2021-06-25
1

SQL、Pandas和Spark:如何实现数据透视表?

数据透视表是一个很重要的数据统计操作,最有代表性的当属在Excel中实现(甚至说提及Excel,个人认为其最有用的当属三类:好用的数学函数、便捷的图表制作以及强大的数据透视表功能)。所以,今天本文就围绕数据透视表,介绍一下其...

2021-06-24
1

TiDB 在网易游戏的应用实践

作者介绍: 李文杰,网易互娱高级数据库工程师,TUG 2019 年度和 2020 年度 MVA。主要负责大数据研发和数据分析工作,为产品提供精细化运营指导;同时在部门内推广使用 TiDB,为业务上云及数据库分布式化积累经验和探索最优方案,...

2021-06-22
1

[源码解析] 深度学习分布式训练框架 horovod (4) --- 网络基础 & Driver

Horovod 是Uber于2017年发布的一个易于使用的高性能的分布式训练框架,在业界得到了广泛应用。

2021-06-21
1

Mac Spark安装和环境变量设置

安装spark到/usr/local/ terminal中定位到spark-2.4.8-bin-hadoop2.7.tgz目录,移动spark-2.4.8-bin-hadoop2.7.tgz到/usr/local

2021-06-21
1