最新 最热

Hadoop HDFS介绍及入门基础

1. 高容错性:HDFS通过数据复制和故障检测机制确保数据的高可用性。每个文件被分割成多个块,并存储在多个DataNode(数据节点)上,通常有多个副本。即使部分硬件故障导致部分数据丢失或不可访问,系统仍能通过其他副本恢复数据...

2024-04-24
2

Hadoop的HDFS操作

在本地创建目录 /home/marry ,并在该目录下创建三个空文件,文件名分别为1.txt,2.txt,3.txt

2024-02-19
4

Hadoop学习指南:探索大数据时代的重要组成——Hadoop运行模式(上)

1)Hadoop 官方网站:http://hadoop.apache.org/ 2)Hadoop 运行模式包括:本地模式、伪分布式模式以及完全分布式模式。 ➢ 本地模式:单机运行,只是用来演示一下官方案例。==生产环境不用。 == ➢ 伪分布式模式:也是单机运行,但...

2024-01-30
1

Shell遍历HDFS路径统计层级目录大小

腾讯云开发者社区是腾讯云官方开发者社区,致力于打造开发者的技术分享型社区。提供专栏,问答,沙龙等产品和服务,汇聚海量精品云计算使用和开发经验,致力于帮助开发者快速成长与发展,营造开放的云计算技术生态圈。...

2024-01-10
1

使用 docker compose 搭建 hadoop集群 总结

-- 学习了 docker 之后实践机会较少,通过本次实践练习 dockerfile 的编写,docker compose 的使用,以及一些 linux 命令的回顾

2023-12-02
1

「EMR 开发指南」之 Kylin 存算分离方案

在大数据领域,数据量持续增长,数据类型和来源也变得越来越复杂。传统的数据仓库和分析工具很难满足大规模数据处理和实时分析的需求。为了解决这些问题,Apache Kylin应运而生。...

2023-11-29
3

「EMR 运维指南」之 Kylin 迁移方案

在大数据领域,数据量持续增长,数据类型和来源也变得越来越复杂。传统的数据仓库和分析工具很难满足大规模数据处理和实时分析的需求。为了解决这些问题,Apache Kylin应运而生。...

2023-11-28
2

「EMR 运维指南」之 Kerberos 跨域认证方案

多个开启 kerberos 的 hadoop 集群之间要做通信(跨集群的数据迁移等),因为 Kerberos 原因无法正常进行,本文档说明了多 kerberos 集群下做跨域认证的方法。...

2023-11-24
2

「EMR 运维指南」之 Kerberos 跨域互信配置

本文以Cluster-A跨域去访问Cluster-B中的服务为例。配置完成后,Cluster-A在获取到本集群KDC授予的TGT(Ticket Granting Ticket)后,能够跨域访问Cluster-B中的服务。本文配置的跨域互信是单向的,即Cluster-B无法跨域访问Clu...

2023-11-24
3

「EMR 开发指南」之通过 Python 连接 Hive

Hive 中集成了 Thrift 服务。Thrift 是 Facebook 开发的一个软件框架,它用来进行可扩展且跨语言的服务的开发。Hive 的 HiveServer2 就是基于 Thrift 的,所以能让不同的语言如 Java、Python 来调用 Hive 的接口。本节将...

2023-11-22
2