最新 最热

【八】Zookeeper3.7.1集成Hadoop3.3.4集群安装

ZooKeeper 是一个分布式协调服务,用于分布式系统中管理配置信息、命名、同步和集群服务。它提供了一种简单的接口来访问存储在其文件系统中的数据,同时为复杂的分布式系统提供了高可用性和一致性保障。以下是 ZooKeeper...

2024-08-04
0

【建议收藏】大数据Hadoop实战入门手册,配套B站视频教程1小时速通

大数据技术是一组用于处理、存储和分析大规模数据集的技术和工具。随着数字化时代的到来,数据量的爆炸性增长使得传统的数据处理和分析方法变得不够高效,因此大数据技术应运而生。...

2024-07-31
0

【七】Hadoop3.3.4基于ubuntu24的分布式集群安装

https://archive.apache.org/dist/hadoop/common/hadoop-3.3.4/

2024-07-27
0

Linux大数据Hadoop生态组件常用命令速查手册

因为spark的群起命令会和hdfs的命令冲突,所以spark执行命令时使用绝对路径。

2024-07-25
0

Hive怎么调整优化Tez引擎的查询?在Tez上优化Hive查询的指南

在Tez上优化Hive查询无法采用一刀切的方法。查询性能取决于数据的大小、文件类型、查询设计和查询模式。在性能测试过程中,应评估和验证配置参数及任何SQL修改。建议在工作负载的性能测试过程中一次只进行一项更改,并最...

2024-06-20
0

Hadoop Hive入门及与spring boot整合实现增删改查

Apache Hive 是一个构建在 Apache Hadoop 之上的数据仓库系统,旨在简化大规模数据集的查询和分析过程。它提供了一种 SQL-like 查询语言(HiveQL 或 Hive Query Language),使得熟悉 SQL 的用户能够以声明式的方式操作存储...

2024-06-18
0

使用Hadoop和Nutch构建音频爬虫:实现数据收集与分析

随着音频内容在互联网上的广泛应用,如音乐、播客、语音识别等,越来越多的企业和研究机构希望能够获取和分析这些数据,以发现有价值的信息和洞察。而传统的手动采集方式效率低下,无法满足大规模数据处理的需求,因此需要利用...

2024-06-08
0

NameNode客户端协议详解

根据交互对象的不同,将协议进行了不同的归类。要想了解协议内容,需要将其单独分开分析。

2024-05-27
0

[已解决]react打包部署

看你想保留哪一个,我平时node用的多,就把hadoop的yarn改个名字(需要用hadoop时可以用改完名字后的命令或再改回yarn)

2024-05-26
0

Hadoop2.6.5 start-dfs.sh 启动流程

执行脚本链路: start-dfs.sh -> hdfs-config.sh -> hadoop-config.sh -> hadoop-daemons.sh -> slave.sh -> hadoop-daemon.sh -> hadoop-env.sh -> hdfs

2024-05-04
0