最新 最热

实时数据湖:Flink CDC流式写入Hudi

•Flink 1.12.2_2.11•Hudi 0.9.0-SNAPSHOT(master分支)•Spark 2.4.5、Hadoop 3.1.3、Hive 3.1.2

2021-07-05
1

0846-7.1.1-如何迁移HDP2.4中的Hive表到CDP7.1.1

随着Hadoop 3.X 版本的发展,Hadoop 2.X 版本即将淘汰。我们当前面临着集群升级的问题,在升级过程中,即使使用迁移升级方式工作量非常大,但毫无疑问最稳妥的升级办法。在迁移的过程中,我们首先面对的就是本地的HDFS数据迁移...

2021-07-05
1

0845-7.1.6-集群外配置Kerberos环境的Gateway节点

在使用CDH/CDP集群过程中会遇到在集群外的节点使用Hadoop命令访问集群(如:HDFS、HBASE、HIVE、SPARK、YARN)等命令操作,这时又不想将该节点添加到CDH/CDP集群中管理,本篇文章主要介绍如何在集群外节点不通过CM部署一个Gate...

2021-07-05
1

大数据开发:Hadoop HDFS安全模式

HDFS作为Hadoop框架下的分布式文件系统,其中包括的知识点是非常繁杂的,尤其在理论学习阶段,如果不多花点时间学透彻,在后续的学习当中也会拖累学习进度。今天的大数据开发学习分享,我们就来讲讲Hadoop HDFS安全模式相关的...

2021-07-01
1

MapReduce 原理介绍与开发实战

MapReduce 是一个分布式运算程序的编程框架,核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序,并发地运行在 Hadoop 集群上。...

2021-07-01
1

hive学习笔记之四:分区表

本文是《hive学习笔记》系列的第四篇,要学习的是hive的分区表,简单来说hive的分区就是创建层级目录的一种方式,处于同一分区的记录其实就是数据在同一个子目录下,分区一共有两种:静态和动态,接下来逐一尝试;...

2021-07-01
1

大数据开发:MapReduce排序和合并机制

MapReduce作为Hadoop的核心计算引擎,算是学习当中必学的一个部分。虽然发展至今,MapReduce计算框架已经很少直接使用了,但是作为分布式并行计算的代表,还是值得学习。今天的大数据开发学习分享,我们就主要来讲讲MapReduce...

2021-06-30
1

hive学习笔记之三:内部表和外部表

至此,咱们对内部表和外部表已经有了基本了解,接下来的文章学习另一种常见的表类:分区表;

2021-06-30
1

大数据入门:Spark是否依赖Hadoop?

犹记得,Spark在2013年才开始陆续传到国内,而再此之前,大数据领域可以说是Hadoop的天下。但是仅在一年多左右的时间,Spark就迅速成为了新一代的大数据框架的选择,光环甚至一度超过Hadoop,而关于Hadoop和Spark的争议,也一直没...

2021-06-29
1

大数据开发:Hadoop序列化入门

作为大数据技术生态当中的第一代框架,Hadoop至今仍然具有不可替代的核心优势,对于企业而言,Hadoop在底层架构上所提供的支持,仍然是企业入场大数据的重要支持框架。今天的大数据开发学习分享,我们就主要来讲讲Hadoop序列化...

2021-06-28
1