最新 最热

Hadoop和Spark技术分享.ppt

Why Hive 相对于使用MapReduce,为什么使用Hive ?MapReduce实现复杂业务逻辑开发难度大Hive提供类SQL语法,避免写MapReduce程序,开发相对快速扩展功能方便,支持自定义函数适合于做数据仓库工具,如ETL处理,数据分析等Why Spark...

2021-07-15
1

[1017]pyspark之dataframe操作

在join操作中,我们得到一个有缺失值的dataframe,接下来将对这个带有缺失值的dataframe进行操作

2021-07-14
1

[1015]spark-submit提交任务及参数说明

spark-submit 可以提交任务到 spark 集群执行,也可以提交到 hadoop 的 yarn 集群执行。

2021-07-14
1

[1014]PySpark使用笔记

PySpark 通过 RPC server 来和底层的 Spark 做交互,通过 Py4j 来实现利用 API 调用 Spark 核心。 Spark (written in Scala) 速度比 Hadoop 快很多。Spark 配置可以各种参数,包括并行数目、资源占用以及数据存储的方式...

2021-07-14
1

大数据开发:Hadoop Hive和Spark的对比

在大数据处理框架不断更新和优化的过程中,Hadoop和Spark之间既有竞争关系,也有相互协同的需求。比方说Hive和Spark,在一段时间内,很多人认为Spark会代替Hive,作为Hadoop的数据仓库,Hive真的已经落后了吗?...

2021-07-13
1

[源码解析] 深度学习分布式训练框架 horovod (11) --- on spark --- GLOO 方案

Horovod 是Uber于2017年发布的一个易于使用的高性能的分布式训练框架,在业界得到了广泛应用。

2021-07-13
1

我们在学习Spark的时候,到底在学习什么?

Spark发展至今,应该说已经非常成熟了。是大数据计算领域不得不学习的框架。尤其是Spark在稳定性和社区发展的成熟度方面,基本可以吊打其他的大数据处理框架。...

2021-07-12
1

伴鱼数据质量中心的设计与实现

日常工作中,数据开发工程师开发上线完一个任务后并不是就可以高枕无忧了,时常会因为上游链路数据异常或者自身处理逻辑的 BUG 导致产出的数据结果不可信。而这个问题的发现可能会经历一个较长的周期(尤其是离线场景),往往...

2021-07-12
1

如何建立数据质量中心(DQC)?

日常工作中,数据开发工程师开发上线完一个任务后并不是就可以高枕无忧了,时常会因为上游链路数据异常或者自身处理逻辑的 BUG 导致产出的数据结果不可信。而这个问题的发现可能会经历一个较长的周期(尤其是离线场景),往往...

2021-07-12
1

实时数据湖:Flink CDC流式写入Hudi

•Flink 1.12.2_2.11•Hudi 0.9.0-SNAPSHOT(master分支)•Spark 2.4.5、Hadoop 3.1.3、Hive 3.1.2

2021-07-12
1