最新 最热

Hadoop排序工具用法小结

Hadoop用于对key的排序和分桶的设置选项比较多和复杂,目前在公司内主要以KeyFieldBasePartitioner和KeyFieldBaseComparator被hadoop用户广泛使用。

2021-06-21
1

开源项目介绍 |Apache Ozone-分布式大数据通用存储

2021腾讯犀牛鸟开源人才培养计划 开源项目介绍 滑至文末报名参与开源人才培养计划 提交项目Proposal Apache Ozone项目介绍 标签:大数据存储  技术栈:Java 标签:大数据存储  技术栈:Java Apache Ozone-分布式大数据...

2021-06-21
1

Apache Ranger:运维管理的神兵利器

Ranger的中文释义是“园林管理员”。正如其名,Apache Ranger很好的承担了Hadoop这个大园林的管理员职责。Ranger提供了一个集中式的安全管理框架,用户可以通过操作Ranger控制台来配置各种策略,从而实现对Hadoop生态组件...

2021-06-18
1

大数据文件格式对比 Parquet Avro ORC 特点 格式 优劣势

在大数据环境中,有各种各样的数据格式,每个格式各有优缺点。如何使用它为一个特定的用例和特定的数据管道。数据可以存储为可读的格式如JSON或CSV文件,但这并不意味着实际存储数据的最佳方式。...

2021-06-16
1

HIVE 基本概念 数据单元 学习笔记

Hive是一个数据仓库基础工具,由Java编写,在Hadoop中用来处理结构化数据,可以把SQL查询转换为一系列在Hadoop集群上运行的作业。

2021-06-16
1

HDFS 基本概念及常用操作 学习笔记

Hadoop 附带了一个名为 HDFS(Hadoop Distributed File System, Hadoop分布式文件系统)的分布式文件系统,基于 Hadoop 的应用程序使用 HDFS 。HDFS 是专为存储超大数据文件,运行在集群的商品硬件上。它是容错的,可伸缩的,...

2021-06-16
1

HDFS Shell 命令实操

文章目录1. 微博案例--HDFS Shell实操1.1 案例:微博用户数据HDFS操作1.2 创建目录1.3 查看指定目录下内容1.4 上传文件到指定目录下(1)1.5 上传文件到指定目录下(2)1.6 查看HDFS文件内容(1)1.7 查看HDFS文件内容(2)1.8 查看HDF...

2021-06-11
1

HDFS Web 报错:Permission denied: user=dr.who, access=READ_EXECUTE, inode=“/tmp“:root:supergroup:drwx

这边我使用的Hadoop 2.7.4 版本 在查看 HDFS Web 界面的时候,点击 /tmp 目录时进不去,报错:Permission denied: user=dr.who, access=

2021-06-11
1

HDFS Shell 命令简介及查询

Hadoop 3.2.2 版本命令:https://hadoop.apache.org/docs/r3.2.2/hadoop-project-dist/hadoop-common/FileSystemShell.html

2021-06-11
1

分布式文件系统 HDFS 简介

文章目录1. HDFS 简介2. HDFS起源发展3. HDFS设计目标4. HDFS应用场景5. HDFS重要特性--主从架构6. HDFS重要特性--分块存储机制7. HDFS重要特性--副本机制8. HDFS重要特性--namespace9. HDFS重要特性--元数据管理10....

2021-06-11
1