最新 最热

Spark性能调优04-数据倾斜调优

数据倾斜的原理很简单:在进行shuffle的时候,必须将各个节点上相同的key拉取到某个节点上的一个task来进行处理,比如按照key进行聚合或join等操作。此时如果某个key对应的数据量特别大的话,就会发生数据倾斜。比如大部分ke...

2018-09-13
0

在win环境下使用yarn安装 vue-cli

很多人熟悉npm,但是很少的人熟悉yarn,yarn可以说是一款高速的受BSD开源协议保护的依赖管理器,使用它可以根据算法计算下载依赖的完整性来执行对应的代码,其中文官网为:https://yarn.bootcss.com/ 有兴趣可以仔细参阅。...

2018-09-12
0

基于Yarn的Spark环境,统计哈姆雷特词频(1)

说明:本地的hadoop目录会挂载到docker中hadoop/etc/hadoop配置文件目录。

2018-09-12
0

实战:基于 docker 的 HA-hadoop 集群搭建

Hadoop的master和slave分别运行在不同的Docker容器中,其中hadoop-master容器中运行NameNode和ResourceManager,hadoop-slave容器中运行DataNode和NodeManager。NameNode和DataNode是Hadoop分布式文件系统HDFS的组件,负.....

2018-09-07
0

Spark on Yarn年度知识整理

Spark是整个BDAS的核心组件,是一个大数据分布式编程框架,不仅实现了MapReduce的算子map 函数和reduce函数及计算模型,还提供更为丰富的算子,如filter、join、groupByKey等。是一个用来实现快速而同用的集群计算的平台。...

2018-09-06
0

Spark on Yarn 架构解析

我们都知道yarn重构根本的思想,是将原有的JobTracker的两个主要功能资源管理器 和 任务调度监控 分离成单独的组件。新的架构使用全局管理所有应用程序的计算资源分配。 主要包含三个组件ResourceManager 、NodeManage...

2018-09-06
1

Hadoop系统架构

步骤1 用户向YARN 中提交应用程序, 其中包括ApplicationMaster 程序、启动ApplicationMaster 的命令、用户程序等。

2018-09-06
0

[spark] Standalone模式下Master、WorKer启动流程

而Standalone 作为spark自带cluster manager,需要启动Master和Worker守护进程,本文将从源码角度解析两者的启动流程。Master和Worker之间的通信使用的是基于netty的RPC,Spark的Rpc推荐看深入解析Spark中的RPC。...

2018-08-29
0

spark任务之Task失败监控

在spark程序中,task有失败重试机制(根据 spark.task.maxFailures 配置,默认是4次),当task执行失败时,并不会直接导致整个应用程序down掉,只有在重试了 spark.task.maxFailures 次后任然失败的情况下才会使程序down掉。另外,sp...

2018-08-29
0

快速开发基于Yarn的分布式应用

mammuthus-yarn-client使得基于Yarn开发分布式应用变得非常容易,基本蔽掉了Yarn的API。 我们后面会把mammuthus-yarn-client 缩写为MYC。

2018-08-27
0