最新 最热

实战|Kafka集群升级项目实施,打造高效数据处理平台

我们团队负责维护的Kafka集群承载了公司大部分实时数据的收集与传输任务。然而,目前存在一些问题,严重影响了集群的稳定性、用户体验以及管理员的运维效率:...

2024-10-10
4

router启动详解

为了解决HDFS的水平扩展性问题,社区从Apache Hadoop 0.23.0版本开始引入了HDFS federation。HDFS Federation是指 HDFS集群可同时存在多个NameNode/Namespace,每个Namespace之间是互相独立的;...

2024-10-10
1

【赵渝强老师】基于ZooKeeper实现Hadoop HA

由于在HA架构中包含的节点比较多,在进行实际部署的时候需要做好集群的规划。图14.9一共使用了4个节点来部署HDFS HA,它们分别是:bigdata112、bigdata113、bigdata114和bigdata115。由于Hadoop默认包含了HDFS和Yarn,因此在...

2024-09-18
2

电商数仓6.0组件之虚拟机搭建Hadoop3.X

Hadoop 是一个开源的框架,主要用于处理海量数据。它能在分布式环境中存储和处理数据,具有高容错性、可扩展性和高性能等优点。Hadoop 可以处理结构化、半结构化和非结构化数据,适用于数据挖掘、机器学习、大数据分析等多...

2024-09-11
1

建立单机版的hive

为了学习hive SQL,我搭建了单机版的hive,查了网上的资料,走了许多坑,总结如下。

2024-09-10
1

【Java】已解决:org.apache.hadoop.hdfs.protocol.QuotaExceededException

已解决:org.apache.hadoop.hdfs.protocol.QuotaExceededException

2024-09-09
3

​【赵渝强老师】大数据主从架构的单点故障

大数据体系架构中的核心组件都是主从架构,即:存在一个主节点和多个从节点,从而组成一个分布式环境。下图为展示了大数据体系中主从架构的相关组件。...

2024-09-05
2

【赵渝强老师】大数据生态圈中的组件

大数据体系架构中的组件非常多,每个组件又属于不同的生态圈系统。从最早的Hadoop生态圈体系开始,逐步有了Spark生态圈体系和Flink生态圈体系。因此在学习大数据之前有必要了解一下每一个生态圈体系中具体包含哪些组件,以...

2024-09-04
3

【赵渝强老师】大数据技术的理论基础

大数据平台所要解决的问题是数据的存储和数据的计算,其核心思想采用的是分布式集群的思想。另一方面,分布式集群的思想在Google的技术系统中得到了很好的应用。因此Google将其核心技术的思想以论文的形式公开发表出来,这...

2024-09-03
2

Hadoop 认证模块详解

客户端的入口函数为 KerberosAuthenticator.authenticate函数

2024-09-01
1