最新 最热

使用CDP遇到的问题1

集群之前开启了 Kerberos,为了使用方便我又禁用了 kerberos,以上错误便是在禁用了 kerberos后出现的

2020-10-15
0

如何在CDH7.1.1集群部署Flink1.10.1

作为新一代流计算引擎,Flink的发展速度是惊人的,尤其是在其母公司被阿里巴巴收购后,Flink在国内工业界已经得到了广泛地应用。本文讲解如何在CDH7.1.1上部署Flink1.10.1。后续会有多篇文章详细介绍Flink的使用和源码分析...

2020-10-15
1

Hadoop2.7.6_05_mapreduce-Yarn

Mapreduce是一个分布式运算程序的编程框架,是用户开发“基于hadoop的数据分析应用”的核心框架;

2020-10-15
0

项目中的yarn.lock文件的作用

npm会等一个包完全安装完才跳到下一个包,但yarn会并行执行包,因此速度会快很多。网上有不少比较npm和yarn安装同样多依赖的执行速度,yarn在速度方面优势明显。...

2020-10-13
0

从零开始搭建 VuePress 静态博客

# 环境准备安装 Git 安装 Node.js ,版本 >=8.6安装 Yarn 注册 GitHub 如果使用 Yarn 或者 Npm 下载慢,使用以下命令全局加速$ yarn config set registry https://registry.npm.taobao.org$ npm config......

2020-10-12
0

搭建Hadoop3集群

强烈建议再搭建hadoop集群之前体验一下单机模式和伪分布式模式的搭建过程,可以参考以下链接:

2020-10-10
0

收藏|Flink比Spark好在哪?

Flink 是一个面向分布式数据流处理和批量数据处理的开源计算平台。和 Spark 类似,两者都希望提供一个统一功能的计算平台给用户,都在尝试建立一个统一的平台以运行批量,流式,交互式,图处理,机器学习等应用。...

2020-10-09
0

大数据ETL实践探索 ---- 笔试面试考点

1、Spark的中间数据放到内存中,对于迭代运算效率更高 2、Spark比Hadoop更通用 3、Spark提供了统一的编程接口 4、容错性– 在分布式数据集计算时通过checkpoint来实现容错 5、可用性– Spark通过提供丰富的Scala, Java...

2020-10-09
0

Flink部署及作业提交(On YARN)

在上一篇 Flink部署及作业提交(On Flink Cluster) 文章中,我们介绍了如何编译部署Flink自身的资源分配和管理系统,并将作业提交到该系统上去运行。但通常来讲这种方式用得不多,因为在企业中,可能会使用不同的分布式计算框架...

2020-09-30
0

0812-5.16.2-如何获取CDSW上提交Spark作业的真实用户

在一个CDSW环境中,由于其中一个租户经常提交大型Spark作业将YARN上租户所在的资源池资源用到95%以上,从而影响到同一租户下其他用户提交作业的运行。这种情况下我们没办法直接找到这些大型作业的实际提交人,是因为我们在...

2020-09-30
0