最新 最热

Hadoop 分布式集群安装

Hadoop 从 2.x 开始,逐渐演变成:HDFS,YARN,MapReduce 三大应用模块,这三个应用模块分别的能力和作用是:

2021-05-18
1

shell批量复制脚本(rsync)【直接复制拿走】

rsync可以实现服务器与服务器之间的数据拷贝【增量拷贝】具有速度快、避免复制相同内容和支持符号链接的优点。

2021-05-14
1

RDD的几种创建方式

在RDD中,通常就代表和包含了Spark应用程序的输入源数据。  当我们,在创建了初始的RDD之后,才可以通过Spark Core提供的transformation算子,对该RDD进行transformation(转换)操作,来获取其他的RDD。  Spark Core为我们提...

2021-05-14
1

Spark Core入门1【Spark集群安装、高可用、任务执行流程、使用Scala/Java/Lambda编写Spark WordCount】

Spark是一种快速、通用、可扩展的大数据分析引擎,包含SparkSQL、Spark Streaming、GraphX、MLlib等子项目。

2021-05-14
1

Hive文件格式之textfile,sequencefile和rcfile的使用与区别详解

hive在创建表时默认存储格式是textfile,或者显示自定义的stored as textfile。

2021-05-14
1

Yarn框架深入理解【Yarn集群配置】

我们都知道Hadoop诞生的目标是为了支持十几台机器的搜索服务,但是随着数据的增加,数据的可用性也是一个待解决的问题。但是Hadoop框架的自身问题限制了集群的发展。...

2021-05-14
1

kettle连接cdh——读取hdfs中的数据

目前pentaho——kettle已经到了8.1的版本了,本文主要介绍如何利用kettle进行大数据处理。

2021-05-14
1

hdfs ACL对文件夹实现权限访问控制

刚刚搭建好cdh后,在使用hdfs的基本指令的时候发现使用root用户权限不够。经过查找资料发现。root用户只是系统的超级管理员,但是不是hdfs的超级管理员。默认cdh安装后,超级管理原始hdfs。如下图:...

2021-05-14
1

数栈百万级分布式调度引擎——DAGScheduleX能做啥?

公交车伴随着我们的日常生活已是随处可见,不同路线的公交车根据各自的时间表有序发出,到达站点,接上站台的乘客再缓缓驶向下一站……早高峰会有短区间的加班车,发车间隔也更短,夜半时分的班次则间隔更长。这一切都服从于公...

2021-05-14
1

想了解Hadoop?看懂这篇文章就够了

2011年的时候我们在百度搜索Hadoop相关的问题每天只有零星几个,2015年再去百度搜索Hadoop已经有800多万个问题,而如今已然已经过亿了,Hadoop已成为大数据必备的基础设施了。Hadoop被公认是一套行业大数据标准开源软件,在...

2021-05-14
1