最新 最热

Hadoop生态圈一览

根据Hadoop官网的相关介绍和实际使用中的软件集,将Hadoop生态圈的主要软件工具简单介绍下,拓展对整个Hadoop生态圈的了解。

2022-08-31
1

HDFS存储大量小文件居然有这样的问题!看我怎么搞定它!「建议收藏」

本文隶属于专栏《1000个问题搞定大数据技术体系》,该专栏为笔者原创,引用请注明来源,不足和错误之处请在评论区帮忙指出,谢谢!

2022-08-31
1

Hadoop生态系统功能组件,主要包括哪些?[通俗易懂]

经过多年的发展,Hadoop生态系统不断完善和成熟,目前已经包括了多个子项目,除了核心的HDFS和MapReduce以外,Hadoop生态系统还包括要ZoopKer、HBase、Hive、Pig、Mahout、Sqoop、Flume、Ambari等功能组件。...

2022-08-31
1

Hadoop的生态系统介绍

Hadoop分布式文件系统是Hadoop项目的两大核心之一,是针对谷歌文件系统(GoogleFileSystem,GFS)的开源实现。是Hadoop体系中数据存储管理的基础。它是一个高度容错的系统,能检测和应对硬件故障,用于在低成本的通用硬件上运...

2022-08-31
1

大数据概况及Hadoop生态系统总结

大数据(big data):指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。...

2022-08-30
1

【专题】spark/MR 数据倾斜优化

原理:在进行shuffle的时候,须将各个节点上相同的key拉取到某个节点上的一个task来进行处理,比如按照key进行聚合或join等操作。此时如果某个key对应的数据量特别大的话,就会发生数据倾斜。比如大部分key对应10条数据,但是...

2022-08-30
0

大数据平台:先做足防守,才能更好地进攻

在大数据产业近十年潮起潮落的变迁中,有一座穿越迷雾的灯塔,驱散了人们对数据应用的疑虑,照亮了数据价值回归的征程。

2022-08-30
1

(6)Flink CEP SQL模拟账号短时间内异地登录风控预警

(1)通过将xxx平台用户登录时的登录日志发送到kafka(本文代码演示用的socket);

2022-08-30
0

0888-7.1.6-如何在集群外安装多集群Gateway支持

1.文档编写目的在使用CDH/CDP集群过程中会遇到在集群外的节点使用Hadoop命令访问集群(如:HDFS、HBASE、HIVE、SPARK、YARN)等命令操作。但是有特殊需求:1.不想将这个节点加入到CDH/CDP集群中管理,只用于实现CDH/CDP集群的...

2022-08-26
1

你问我答1 - HDFS数据的写入原理

我们在集群中配置了hdfs异构存储策略,配置如下:dfs.datanode.data.dir:/data02/dfs/dn,/data03/dfs/dn,[ARCHIVE]/mnt/nfs01/dfs/dndfs.namenode.replication.min:1dfs.replication:2然后做了如下......

2022-08-26
0