最新 最热

Hadoop和spark基础使用

map的输入固定是LongWritable和Text,可理解为偏移量和String类型的数据。 核心:map的输出的key和value是reduce的输入的key和value

2023-10-17
1

CentOS7下Hadoop伪分布式环境搭建

在CentOS中,有三种定义的主机名:静态的(static),瞬态的(transient),和灵活的(pretty)。“静态”主机名也称为内核主机名,是系统在启动时从/etc/hostname自动初始化的主机名。“瞬态”主机名是在系统运行时临时分配的主机名,例如,...

2023-10-16
1

大数据存储与处理技术探索:Hadoop HDFS与Amazon S3的无尽可能性【上进小菜猪大数据】

大数据时代带来了数据规模的爆炸性增长,对于高效存储和处理海量数据的需求也日益迫切。本文将探索两种重要的大数据存储与处理技术:Hadoop HDFS和Amazon S3。我们将深入了解它们的特点、架构以及如何使用它们来构建可扩...

2023-10-16
4

Sqoop: Hadoop数据传输的利器【Sqoop实战】【上进小菜猪大数据系列】

我是上进小菜猪,沈工大软件工程专业,爱好敲代码,持续输出干货,欢迎关注。 Sqoop: Hadoop数据传输的利器, 在大数据领域,数据的传输和集成是至关重要的任务之一。Sqoop(SQL to Hadoop)作为Apache软件基金会下的一个开源项目,旨...

2023-10-16
4

hadoop 常用指令-查看,下载,解压

腾讯云开发者社区是腾讯云官方开发者社区,致力于打造开发者的技术分享型社区。提供专栏,问答,沙龙等产品和服务,汇聚海量精品云计算使用和开发经验,致力于帮助开发者快速成长与发展,营造开放的云计算技术生态圈。...

2023-10-16
2

基于Hadoop的学生校园网行为分析

背景:随着互联网的普及和移动设备的智能化,学生在校园网上的行为数据不断增加。这些数据包括学生的网络访问记录、在线学习行为、社交媒体活动等。这些数据蕴含着丰富的信息,可以帮助学校了解学生的行为模式、需求和偏好...

2023-10-16
1

hadoop常用命令小锦囊

Hadoop是一个由Apache开发的开源分布式计算框架,它能够处理大规模数据并行处理任务,支持大规模数据存储和处理。Hadoop的核心组件包括分布式文件系统HDFS和分布式计算框架MapReduce,它们使得Hadoop可以在廉价的硬件上并...

2023-10-16
0

Hadoop伪分布式安装

进入文件之后,除了127.0.0.1以及::1这开头的两行以外,其余的行全部删除

2023-10-16
1

基于Docker搭建大数据集群(三)Hadoop部署

docker cp hadoop-2.7.7.tar.gz cluster-master:/root/tar

2023-08-17
1

大数据处理之高效查询频度排序

在互联网时代,数据量的爆炸增长给数据处理带来了巨大的挑战。本文将介绍如何高效地处理10个每个文件大小为1G的文件,其中每个文件的每一行存放的都是用户的查询(query)。我们的目标是按照查询的频度对这些查询进行排序...

2023-08-11
1