最新 最热

【首页推荐】详解 Hadoop HA 完全分布式部署配置及运行调试

本期主要介绍 Hadoop HA 完全分布式模式的部署。HA 完全分布式模式(Highly Available Fully-Distributed Mode)是生产环境上最常见的 Hadoop 安装部署方式。HA 即高可用,是指当当前工作中的机器宕机后,会自动处理这个异常...

2022-01-26
1

实时数据治理—当Atlas遇见Flink

Atlas是一组可扩展和可扩展的核心基础治理服务,使企业能够有效,高效地满足Hadoop中的合规性要求,并允许与整个企业数据生态系统集成。

2022-01-25
1

Dlink + FlinkSQL构建流批一体数据平台——部署篇

摘要:本文介绍了某零售企业用户基于 Dlink + FlinkSQL 构建批流一体数据平台的实践,主要为部署的分享。内容包括:

2022-01-21
1

一文带你了解 Spark 架构设计与原理思想

卷友们,大家好 ~ 我是 Alex 。之前已经陆续输出了 Hadoop三大核心组件 的 架构思想和原理 和 Hive架构设计和原理 ,每篇都受到了读者小伙伴们的一致好评 ~ 感谢大家的支持。大家可能已经猜到了,按照发展趋势,本篇将为大家...

2022-01-21
1

盘点13种流行的数据处理工具

作者:所罗伯·斯里瓦斯塔瓦(Saurabh Shrivastava)、内拉贾利·斯里瓦斯塔夫(Neelanjali Srivastav)

2022-01-20
1

hbase基本介绍

当您需要对大数据进行随机、实时的读写访问时,请使用Apache HBase™。这个项目的目标是在商用硬件集群上托管非常大的表——数十亿行X数百万列。Apache HBase是一个开源的、分布式的、版本化的、非关系型的数据库,它模...

2022-01-19
1

hive metastore配置kerberos认证

hive从3.0.0开始提供hive metastore单独服务作为像presto、flink、spark等组件的元数据中心。但是默认情况下hive metastore在启动之后是不需要进行认证就可以访问的。所以本文基于大数据组件中流行的kerberos认证方...

2022-01-19
1

YARN基本架构

YARN 的基本思想是将资源管理和作业调度/监控的功能拆分为单独的守护进程。这个想法是有一个全局 ResourceManager ( RM ) 和每个应用程序 ApplicationMaster ( AM )。应用程序是单个作业或作业的 DAG。...

2022-01-19
1

hdfs命令行基本操作指南

Hadoop包括各种shell类命令,它们直接与HDFS和Hadoop支持的其他文件系统交互。 bin/hdfs dfs -help列出了Hadoop shell支持的命令。 此外,命令bin/hdfs dfs -help command-name可以显示命令的更详细的帮助。 这些命令支...

2022-01-19
1

hdfs集群安装(单namenode和HA模式)

至此hadoop1和hadoop2已经启用了namenode的高可用特性,其通过zk自动选举。具体如下图所示:

2022-01-19
1